usi 2013-next big data architecture
DESCRIPTION
TRANSCRIPT
![Page 1: Usi 2013-next big data architecture](https://reader035.vdocuments.site/reader035/viewer/2022081414/54d04c294a7959964d8b4635/html5/thumbnails/1.jpg)
www.usievents.com
24 & 25 Juin 2013LE RENDEZ-VOUS DES GEEKS & DES BOSSPOUR UNE INFORMATIQUE QUI TRANSFORME NOS SOCIÉTÉS
Prochaine Génération d’architectures Big Data
Olivier Mallassi
1
www.gopivotal.com
![Page 2: Usi 2013-next big data architecture](https://reader035.vdocuments.site/reader035/viewer/2022081414/54d04c294a7959964d8b4635/html5/thumbnails/2.jpg)
www.usievents.com 2
« Big Data »…Tout attribut qui défie les contraintes d’une capacité d’un système ou besoin métier.
Challenge nos savoir-faire.
![Page 3: Usi 2013-next big data architecture](https://reader035.vdocuments.site/reader035/viewer/2022081414/54d04c294a7959964d8b4635/html5/thumbnails/3.jpg)
www.usievents.com 3
Plus…
…de volume
…vite
…complexe : « predictive enterprise »…variée
et variable
…nous amène vers « plus… »
![Page 4: Usi 2013-next big data architecture](https://reader035.vdocuments.site/reader035/viewer/2022081414/54d04c294a7959964d8b4635/html5/thumbnails/4.jpg)
www.usievents.com 4
UNE IMPLEMENTATIONDE REFERENCE : Hadoop
![Page 5: Usi 2013-next big data architecture](https://reader035.vdocuments.site/reader035/viewer/2022081414/54d04c294a7959964d8b4635/html5/thumbnails/5.jpg)
www.usievents.com
UNE IMPLEMENTATIONDE REFERENCE : Hadoop
5
Nam
eN
od
e
Data
Nod
e
Data
Nod
e
Data
Nod
e
Data
Nod
e
File#2Block#1
File#2Block#2
File#2Block#3
Un système de fichier distribué : HDFS
Découpage des fichiers en « bloc ».Répartition des données sur plusieurs machines.Réplication des données pour assurer la tolérance à la panne.
File#2
File#2Block#1
File#2Block#2
File#2Block#3
![Page 6: Usi 2013-next big data architecture](https://reader035.vdocuments.site/reader035/viewer/2022081414/54d04c294a7959964d8b4635/html5/thumbnails/6.jpg)
www.usievents.com
UNE IMPLEMENTATIONDE REFERENCE : Hadoop
6Ta
skTr
acker
TaskTr
acker
TaskTr
acker
TaskTr
acker
File#2Block#1
File#2Block#2
File#2Block#3
Map Map MapReduce
Une couche de traitement: MapReduce
Distribution des traitements.Co-localisation traitements & données.
Job
Tracker
![Page 7: Usi 2013-next big data architecture](https://reader035.vdocuments.site/reader035/viewer/2022081414/54d04c294a7959964d8b4635/html5/thumbnails/7.jpg)
www.usievents.com 7
QUI POSE QUELQUESDEFIS
![Page 8: Usi 2013-next big data architecture](https://reader035.vdocuments.site/reader035/viewer/2022081414/54d04c294a7959964d8b4635/html5/thumbnails/8.jpg)
www.usievents.com
QUI POSE QUELQUESDEFIS
8
Manque de généricité : « MapReduce Only »
Structurant en termes de développement. Structurant en termes d’architecture (« scheduling »…).Ne convient pas à tous les types de traitements.
TaskTr
acker
TaskTr
acker
TaskTr
acker
TaskTr
acker
File#2Block#1
File#2Block#2
File#2Block#3
Map Map MapReduce
Job
Tracker
![Page 9: Usi 2013-next big data architecture](https://reader035.vdocuments.site/reader035/viewer/2022081414/54d04c294a7959964d8b4635/html5/thumbnails/9.jpg)
www.usievents.com 9
Une architecture qui ne répond pas aux nouveaux enjeux
Complexité d’intégration.Mode de traitement batch incompatible avec le « plus vite ».Architecture Master / Slave incompatible avec les problématiques
d’ingestion (Machine-2-Machine).
QUI POSE QUELQUESDEFIS
SI Opérationnel SI Décisionnel
Hadoop
DWH (MPP...)
Déchargement
Extraction / Enrichissement
App / RDBMS
App / RDBMS
App / RDBMS
App / RDBMS
![Page 10: Usi 2013-next big data architecture](https://reader035.vdocuments.site/reader035/viewer/2022081414/54d04c294a7959964d8b4635/html5/thumbnails/10.jpg)
www.usievents.com 10
THEORIEDE L’EVOLUTION
![Page 11: Usi 2013-next big data architecture](https://reader035.vdocuments.site/reader035/viewer/2022081414/54d04c294a7959964d8b4635/html5/thumbnails/11.jpg)
www.usievents.com
THEORIEDE L’EVOLUTION
11
#1. YARN ou l’ouverture vers d’autres types de traitements distribués
YA
RN
Ressou
rce M
an
ag
er
Nod
e M
gr
Nod
e M
gr
Nod
e M
gr
Nod
e M
gr
Map Map MapReduce
Nod
e M
gr
MR Application
Worker Master Worker
SQL SQL
MapReduce
Master/Worker
SQL
![Page 12: Usi 2013-next big data architecture](https://reader035.vdocuments.site/reader035/viewer/2022081414/54d04c294a7959964d8b4635/html5/thumbnails/12.jpg)
www.usievents.com
THEORIEDE L’EVOLUTION
12
#2. Faciliter et diversifier l’accès à la donnée…
![Page 13: Usi 2013-next big data architecture](https://reader035.vdocuments.site/reader035/viewer/2022081414/54d04c294a7959964d8b4635/html5/thumbnails/13.jpg)
www.usievents.com
THEORIEDE L’EVOLUTION
13
#2. …avec SQL
Facilite l’accès via « SQL Like »Génération traitement MR
![Page 14: Usi 2013-next big data architecture](https://reader035.vdocuments.site/reader035/viewer/2022081414/54d04c294a7959964d8b4635/html5/thumbnails/14.jpg)
www.usievents.com
THEORIEDE L’EVOLUTION
14
#2. …avec SQL
Améliore les performances de HiveEnrichit la compatibilité SQLPrivilégie la mémoire
![Page 15: Usi 2013-next big data architecture](https://reader035.vdocuments.site/reader035/viewer/2022081414/54d04c294a7959964d8b4635/html5/thumbnails/15.jpg)
www.usievents.com
THEORIEDE L’EVOLUTION
15
#2. …avec SQL
Architecture différente de MRCompatibilité avec SQLNouveau format de stockage, compressionPrivilégie la mémoire
![Page 16: Usi 2013-next big data architecture](https://reader035.vdocuments.site/reader035/viewer/2022081414/54d04c294a7959964d8b4635/html5/thumbnails/16.jpg)
www.usievents.com
THEORIEDE L’EVOLUTION
16
#2. …avec SQL
Le portage du « moteur SQL » de Greenplum MPPCompatibilité avec SQL« Moteur SQL » éprouvé : redistribution des données en cas de jointureStockage polymorphe : compression, « row / column oriented »
![Page 17: Usi 2013-next big data architecture](https://reader035.vdocuments.site/reader035/viewer/2022081414/54d04c294a7959964d8b4635/html5/thumbnails/17.jpg)
www.usievents.com
THEORIEDE L’EVOLUTION
17
AnalyticWorkloads
SQL Services
OperationalIntelligence
In-Memory Services
Stream Ingestion
HDFS
In memory / Streaming Services
Processing / transformationcalculation
MR / SQL services
GemFire
#3. HDFS : le substrat sur lequel s’intègre différentes couches de traitement
Collecte, traitements temps réel : « In Memory Data Grid ».
![Page 18: Usi 2013-next big data architecture](https://reader035.vdocuments.site/reader035/viewer/2022081414/54d04c294a7959964d8b4635/html5/thumbnails/18.jpg)
www.usievents.com
THEORIEDE L’EVOLUTION
18
AnalyticWorkloads
SQL Services
OperationalIntelligence
In-Memory Services
Stream Ingestion
In memory / Streaming Services
Processing / transformationcalculation
MR / SQL services
MR / Hive / HAWQ
insert into…. select from…
#3. HDFS : le substrat sur lequel s’intègre différentes couches de traitement
Analyse, Extraction, Machine Learning : MapReduce, SQL…
HDFS
![Page 19: Usi 2013-next big data architecture](https://reader035.vdocuments.site/reader035/viewer/2022081414/54d04c294a7959964d8b4635/html5/thumbnails/19.jpg)
www.usievents.com
THEORIEDE L’EVOLUTION
19
AnalyticWorkloads
SQL Services
OperationalIntelligence
In-Memory Services
Stream Ingestion
In memory / Streaming Services
Processing / transformationcalculation
MR / SQL services
HAWQ SQLFire
select lag() over(partition by…) from … where …
#3. HDFS : le substrat sur lequel s’intègre différentes couches de traitement
Restitution : SQL.
HDFS
![Page 20: Usi 2013-next big data architecture](https://reader035.vdocuments.site/reader035/viewer/2022081414/54d04c294a7959964d8b4635/html5/thumbnails/20.jpg)
www.usievents.com 20
Ouvrir vers d’autres types de traitements distribués avec YARNFaciliter et diversifier l’accès à la donnée avec SQLIntégrer différentes couches de traitements sur HDFS
Simplifie(ra) la « gestion technique » de la donnée.
Simplifie(ra) l’analyse et l’accès à cette donnée.
Facilite(ra) l’intégration à l’écosystème et l’existant.
Sera le socle technique aux nouveaux cas d’usage.