hadoop dans l'enterprise - sas institute group...6 pourquoi in pioneer days they used oxen...
TRANSCRIPT
![Page 1: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/1.jpg)
1
Hadoop dans l’entreprise: du concept à la réalité. Pourquoi et comment?
Jean-Marc Spaggiari | Cloudera [email protected] | @jmspaggi
Mai 2014
![Page 2: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/2.jpg)
2
Avant qu’on commence…
![Page 3: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/3.jpg)
3
Agenda -Qu’est-ce que Hadoop et pourquoi – 25 minutes
- Cas d’utilisation – 20 minutes - Questions – 15 minutes
![Page 4: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/4.jpg)
4
Qu’est-ce que c’est et pourquoi?
![Page 5: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/5.jpg)
5
Pourquoi Hadoop?
Traditionnellement, les systèmes de traitement étaient limités par la capacité des processeurs:
• Relativement petit volume de données
• Beaucoup de traitements complexes.
Solution initial: De plus gros ordinateurs:
• Processeurs plus rapides, plus de mémoire;
• Mais toujours pas capable de suivre le volume de croissance des données
![Page 6: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/6.jpg)
6
Pourquoi Hadoop?
Une solution encore meilleure: Plus d'ordinateurs
• Systèmes distribués
• Utilisation de plusieurs machines pour une même tache.
• Pousser le traitement sur la donnée et non l’inverse.
In pioneer days they used oxen for heavy pulling, and when one ox couldn't budge a log,
they didn't try to grow a larger ox. We shouldn't be trying for
bigger computers, but for more systems of computers.
—Grace Hopper
![Page 7: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/7.jpg)
7
Nouvelle approche
Avant Pousser les données sur le traitement
Maintenant Pousser le traitement sur les données
Data Entreprises
“Information-centric” utilisent TOUTES les
données:
Structurées, semi-structurées, non
structurées, internes et externes.
Compute
Compute
Compute
Entreprises «process-centric » utilisent:
• Données structurées • Données internes • Données importantes
Compute
Compute
Compute
Data
Data
Data
Data
©2014 Cloudera and SAS. All rights reserved.
![Page 8: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/8.jpg)
8
Qu’est-ce que Hadoop? À mes enfants:
• Quelqu’un a créé un logiciel qui aide le monde à résoudre de gros problèmes à moindre coûts. Il lui a donné le nom de la peluche de son fils.
À ma femme:
• C’est un logiciel qui permet à des centaines d’ordinateurs de travailler ensemble comme s’ils étaient un. Ce n’est pas cher, et quand on a besoin de plus de puissance, il suffit d’ajouter d’autres ordinateurs.
![Page 9: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/9.jpg)
9
Qu’est-ce que Hadoop?
Aux dirigeants d’entreprises:
• Va vous aider à augmenter votre ROI et baisser vos coûts par TB.
À mes amis:
• C’est un peu comme un mélange de minority report et de skynet
![Page 10: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/10.jpg)
10
Hadoop!
![Page 11: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/11.jpg)
11
Ce qu’ont fait Google…
• Conçu leur propre système de stockage et de traitement:
• Google File System
• MapReduce
• Buts: • Bon marché
• « Scalable »
• Fiable
![Page 12: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/12.jpg)
12
Google ont fait quelque chose de différent…
• Ça fonctionne!
• Supporte les services de Google depuis plusieurs années
• Toujours utilisé aujourd’hui.
![Page 13: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/13.jpg)
![Page 14: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/14.jpg)
![Page 15: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/15.jpg)
15
![Page 16: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/16.jpg)
16
Google: Messages du futur
• Google à gentiment publié:
• 2003: Google File System (GFS)
• 2004: MapReduce
• Des technologies déjà matures.
![Page 17: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/17.jpg)
17
Google: Messages du future
• Pas d’adoption initiale de la communauté
• Les gens DB pensaient que ce n’était pas une bonne idée
• Les Non-Google n’en étaient pas là.
• Google n’avait pas d’intérêts dans ces publications
• Modèle d’affaire sur les publicités, pas sur les infrastructures.
![Page 18: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/18.jpg)
18
Qu’est-ce que Hadoop?
• Logiciel Open Source
• Stocker, Traiter, Analyzer
• Grand quantité de données, stockage brut
• Structurées, non-structurées, semi-structurées… ou une combinaison
• Hadoop = Schema on Read, RDBMS = Schema on Write
Stockage Traitement
HDFS MapReduce, Hive, Impala, Search…
Auto-correctif
Large bande passante
Stockage réparti
Traitement distribué
Tolérance aux pannes
Hadoop “Node”
![Page 19: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/19.jpg)
19
• Open source
• Environ 60 committers de plus de 10 compagnies:
• Cloudera, Yahoo!, Facebook, Apple, and more
• Centaines de contributeurs:
• Nouvelles fonctionnalités;
• Bug fix
• De très nombreux projets/applications/outils reliés.
Pourquoi Hadoop? Les faits.
![Page 20: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/20.jpg)
20
Pourquoi Hadoop?
Pig
Zookeeper
Impala
Grand écosystem en croissance.
![Page 21: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/21.jpg)
21
Pourquoi Hadoop? Qui l’utilise.
![Page 22: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/22.jpg)
22
Pourquoi Hadoop? Intégration.
BI/Analytics ETL Database OS/Cloud/
System Mgmt.
Hardware
![Page 23: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/23.jpg)
23
Hadoop fourni 2 principaux composants: • Hadoop Distributed File System - HDFS • Map Reduce
Core Hadoop
![Page 24: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/24.jpg)
24
• Base de données non-sql distribué (low latency).
• Base de données en colonnes.
HBase
![Page 25: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/25.jpg)
25
• Abstraction de base de
données relationnelles
utilisant un langage proche
du SQL appelé HiveQL.
• Utilise MapReduce pour
exécuter les requêtes.
SELECT s.word, s.freq, k.freq
FROM shakespeare JOIN ON (s.word= k.word) WHERE s.freq >= 5;
Hive
![Page 26: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/26.jpg)
26
• Requêtes en temps réel.
• Rapide, nativement en C++
• Utilise le même langage de
requêtes que Hive.
Impala
![Page 27: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/27.jpg)
27
• Langage de script pour exécuter
(entre autre) des opérations
MapReduce.
• Créé pour simplifier la
créations/execution de taches
MapReduce.
• Peut être étendue avec des
fonctions définies par l'utilisateur
(UDF)
emps = LOAD 'people.txt’ AS
(id,name,salary);
rich = FILTER emps BY salary >
200000;
sorted_rich = ORDER rich BY
salary DESC;
STORE sorted_rich INTO
’rich_people.txt';
Pig
![Page 28: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/28.jpg)
28
Effectue des transferts de données bi-directionels entre Hadoop et la plus part des bases de données.
Sqoop
![Page 29: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/29.jpg)
29
Client
Client
Client
Client
Agent
Agent
Agent
Système de cueillette et d’agrégation de flux pour des données massives et volumineuses comme par exemple services RPC, Log4J, Syslog, etc.
Flume
![Page 30: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/30.jpg)
30
Un “workflow engine” et
un planificateur de taches
construit spécialement
pour orchestrer les
processus à grande
échelle.
Oozie
![Page 31: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/31.jpg)
31
• Zookeeper est un moteur de
consensus distribué.
• Fourni des services prédéfinis
pour, entre autre:
• Élection de leaders;
• Découverte de services;
• Verrous et exclusions mutuelles
distribuées.
ZooKeeper
![Page 32: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/32.jpg)
32
• Hue est une interface web utilisateur OpenSource pour les applications relative à Hadoop.
• Hue comprend entre autre: • Explorateur de fichiers HDFS; • Concepteur et visualisateur de
jobs MapReduce; • Éditeur de requêtes pour Hive,
Impala, Pig, etc. • Oozie; • Et bien plus.
Hue
![Page 33: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/33.jpg)
33
Libraire d’algorithmes de “machine learning” pour, entre autre: • Recommandations basé sur le
comportement; • Regroupement de documents; • Classification de catégories; • Recommandations d’achats
fréquents; • Etc.
Mahout
![Page 34: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/34.jpg)
34
• Spark • Shark • Storm • …
Etc.
![Page 35: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/35.jpg)
35
Quand un fichier est ajouté, il est découpé en blocs. Taille des blocs = 128MB (défaut) Facteur de réplication = 3
HDFS Block Replication
1
2
3
4
5
2
3
4
2
4
5
1
3
5
1
2
5
1
3
4
HDFS
Node 1 Node 2
Node 3
Node 4 Node 5
File Blocks
![Page 36: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/36.jpg)
38
Les cas d’utilisation.
![Page 37: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/37.jpg)
39
La plupart des compagnies
commencent ici!
Deux catégories de cas d’utilisation d’Hadoop
Efficacité opérationnelle Effectuer le même travail, mais plus vite, mieux et moins chers.
Innovation et Avantage Retirer de l’information de TOUTES vos données.
Traitement des données: ETL Offload Stockage des données: Ent. Data Hub
Business Intelligence Advanced Analytics Applications
![Page 38: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/38.jpg)
40
BI/DW Architecture Aujourd’hui
Data Warehouse
New data
Unstructured data
Source
Source
Data Marts
![Page 39: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/39.jpg)
41
BI/DW Architecture Aujourd’hui
Staging Server
Store
ETL Tool
New data
Unstructured data
?
Source
Source
Archive (offline) Extract
Transform Load
Move
Analyze Report
Transform
Data Warehouse
Data Marts
Move
![Page 40: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/40.jpg)
42
Hadoop plus the Data Warehouse: BI/DW Architecture of Tomorrow
Extract Transform Load
Source
Store
New data
Unstructured data
Source
Move
Analyze Report
Transform
Data Warehouse
Data Marts
Move
![Page 41: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/41.jpg)
43
Client exemple Institution financière américaine
Bénéfices: • Accès plus rapide à 6 fois plus de données;
• Faible cout, architecture simplifiée;
• Implémentation en quelques mois.
Défis: • Réduire les coûts;
• Se conformer aux règlements imposant un plus gros volume de données pour les « stress tests »
• Consolider et simplifier le traitement des données.
Avant Après
Mainframe Mainframe
Cluster Hadoop Warehouse
![Page 42: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/42.jpg)
44
Client exemple: Fournisseur de services téléphoniques Canadien
• Croissance exponentielle des données, générées par les nouveaux appareils des clients;
• Analytique limité à 1% des données à cause des contraintes d’ETL et de stockage.
• Nouvelle combinaison de Hadoop + DataWarehouse pour traiter 100% des données (un demi PB par jour!)
• Énorme réduction des temps de traitement (de 4 jours à 53 minutes)
• 90% de réduction du code des ETL
De 1% des données à 100% d’analyse!
Archive Storage
Data Warehouse
Complex Correlation
Alerting
Filter &
Split
Event Monitoring
Streaming ETL
Streaming ETL
Telecom Services
Avant
Data Warehouse
Alerting
Filter &
Split
Event Monitoring
Hadoop Archive Storage
ETL Correlation
Stage 1 DWH
Telecom Services
Après
![Page 43: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/43.jpg)
45
Client exemple: Agence Marketing Américaine
FTP ETL Database
![Page 44: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/44.jpg)
46
Client exemple: Agence Marketing Américaine
FTP ETL Database Hadoop
![Page 45: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/45.jpg)
47
Client exemple: Agence Marketing Américaine
FTP Database Hadoop
ETL
![Page 46: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/46.jpg)
48
Client exemple: Agence Marketing Américaine
FTP Database Hadoop
ETL
Bénéfices: • 300 fois plus de données après un an;
• Performances accrues (30 minutes vs 6 semaines);
• “Scalable”.
![Page 47: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/47.jpg)
49
Active Archive • Full fidelity original data • Indefinite time • Lowest cost storage
Data Mgmt & Transformations • One source of data for all analytics • Define structure and publish • Significantly faster & cheaper
Self-service Exploratory BI • Simple search + BI tools • “Schema on read” agility • Reduce BI user backlog requests
Multi-workload analytic platform • Bring applications to data • Combine different workloads on common data (i.e. SQL +Search) • True BI agility
1
2
3
4
EDWs Marts Storage Search Servers Documents Archives
ERP, CRM, RDBMS, Machines Files, Images, Video, Logs, Clickstreams External Data Sources
4
1
2
3
EDH
Summary: Hadoop adoption is a progression
![Page 48: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/48.jpg)
50
SAS® Embedded Process
SAS & Cloudera Big data analytics in Cloudera
HDFS
SAS® LASR™ Analytic Server
SAS® Event Stream Processing
SAS/ACCESS® to Hadoop™
& to Impala™
Real-Time & Streaming Interactive Batch & SQL
Visual Analytics
Visual Statistics
Visual Scenario Designer
In-Memory Statistics for Hadoop
Visual Data Builder Visual Scenario Designer
High-Performance Analytics
©2014 Cloudera and SAS. All rights reserved.
![Page 49: Hadoop dans l'enterprise - Sas Institute Group...6 Pourquoi In pioneer days they used oxen Hadoop? Une solution encore meilleure: Plus d'ordinateurs •Systèmes distribués •Utilisation](https://reader034.vdocuments.site/reader034/viewer/2022042205/5ea6dc38a79c057b511d8ec5/html5/thumbnails/49.jpg)
51
“Hadoopable” Big Data: Indicateurs
1. Le client souhaite ajouter de nouvelles données
2. Les besoins de stockage augmentent de façon spectaculaire
3. Ressources de traitement insuffisantes pour répondre aux SLA internes de l'entreprise
4. Analyses et ETLS existants à pleine capacité
5. Pressions financières pour réduire les coûts informatiques Best Practice:
Commencer avec des usescases opérationnels;
Continuer avec des usescases analytiques