tout savoir sur hadoop : la technologie, ses usages et ses...
TRANSCRIPT
Tout savoir sur Hadoop : La technologie, ses usages et ses limites (2ème Partie) Hadoop suscite l'intérêt d'un nombre croissant d'entreprises. Dans ce guide, LeMagIT fait le tour sur les freins de cette technologie avec le retour de certains acteurs
1 KEINE ZEIT
MEHR VERLIEREN
2 DIE FÜNF TOP-THEMEN
BEI DER SEPA-UMSTELLUNG
3 SAP ERP IN DREI
SCHRITTEN FRIST-
GERECHT UMSTELLEN
4 WAS BEI SEPA-DIENSTEN AUS
DER CLOUD ZU BEACHTEN IST
PRÉSENTATION
LES LIMITES DE LA
TECHNOLOGIE
RETOUR D’EXPERIENCE : QUE
FAUT-IL RETENIR
PRESENTATION
LES LIMITES DE LA
TECHNOLOGIE
RETOUR D’EXPÉRIENCE : QUE
FAUT IL RETENIR
HADOOP EN PRATIQUE 2
JUIN 2014 Si Hadoop reste un sujet de discussion
populaire lorsque l’on parle d’environnements Big Data,
la technologie est aussi la cible d’une quantité de
critiques. Non seulement la technologie est assez
complexe et requiert des compétences précises, mais les
professionnels IT doivent aussi être conscients de certains
inconvénients qui pourraient pénaliser l’intégration du
framework dans le SI et ainsi ralentir le très précieux
ROI, nécessaire à l’aboutissement d’un projet.
LeMagIT a réuni au sein de ce dossier un ensemble
d'articles et de témoignages dont l'objectif est d'aider à se
rendre compte des limites d’Hadoop et de pouvoir mieux
l’utiliser.
CYRILLE CHAUSSON
Rédacteur en chef ,
TechTarget / LeMagIT
Présentation
PRESENTATION
PRESENTATION
LES LIMITES DE LA
TECHNOLOGIE
RETOUR D’EXPÉRIENCE : QUE
FAUT IL RETENIR
HADOOP EN PRATIQUE 3
1. RESOUDRE LES DIFFICULTES POSEES PAR HADOOP
AU MOYEN D’UN STOCKAGE EN CLOUD PRIVE
Pourquoi utiliser un stockage en cloud privé avec Hadoop
? Cette plate-forme n’est-elle pas conçue pour utiliser
des serveurs et des ressources de stockage de masse
économiques ? En quoi l’intégration d’un stockage en
cloud privé pourrait-elle résoudre les problèmes posés par
Hadoop ? Pour répondre à ces questions, quelques
connaissances préalables sur le fonctionnement d’Hadoop
s’imposent…
Hadoop est le projet open source d’Apache destiné à
l'analyse de données non structurées. Il est conçu pour
fournir des informations pratiques et exploitables portant
sur de grands volumes de jeux de données
essentiellement non structurés. Mais il peut également
apporter les mêmes informations pour des données
structurés en volume, ou encore pour des combinaisons
de ressources structurées/non structurées. C’est toute la
valeur d’Hadoop que de tirer des informations
intéressantes de données qui, traditionnellement, n’étaient
pas facilement exploitables. Si sa capacité à passer au
crible les péta-octets d’informations reste inégalée, ce qui
fait vraiment la différence avec Hadoop, c’est qu’il n’est
pas nécessaire d’identifier un résultat attendu avant de
lancer la recherche. En effet, Hadoop établit des relations
que personne n’avait même envisagées. C’est aujourd’hui
un puissant outil tant pour l’informatique que pour
l’activité de l’entreprise.
Le concept fondamental d’Hadoop réside dans la
manipulation, le traitement et l’analyse de très grands
jeux de données (qui se chiffrent en péta-octets ; Po),
données qui sont alors automatiquement réparties dans
des espaces de stockage et des lots de traitement sur un
ensemble de clusters de serveurs à bas coûts. D’un seul
serveur à plusieurs milliers de machines, Hadoop est une
solution évolutive qui embarque une capacité de
tolérance aux pannes. Détection des défaillances et
automatisation lui confèrent une excellente résistance.
Derrière Hadoop se trouvent deux technologies
importantes : MapReduce et le HDFS, le système de
fichiers d’Hadoop.
MapReduce constitue l’infrastructure qui identifie et
attribue les lots de traitement aux nœuds d’un cluster
Hadoop. MapReduce exécute ces lots en mode parallèle,
ce qui permet à leur traitement et leur analyse de porter
sur de grandes quantités de données en très peu de temps.
HDFS, quant à lui, rassemble et relie tous les nœuds d’un
même cluster Hadoop en un seul grand système de
Les limites de la technologie
LES LIMITES DE LA
TECHNOLOGIE
PRESENTATION
LES LIMITES DE LA
TECHNOLOGIE
RETOUR D’EXPÉRIENCE : QUE
FAUT IL RETENIR
HADOOP EN PRATIQUE 4
fichiers. Comme il arrive qu’il y ait défaillance, HDFS
garantit la fiabilité en répliquant les données à l’échelle
de plusieurs nœuds.
Mais alors, quel avantage le stockage en cloud privé
présente-t-il pour Hadoop ? Hadoop est un programme
évolutif qui rencontre actuellement trois difficultés
majeures que les fournisseurs de solutions de stockage en
cloud privé pourraient aplanir, voire éradiquer :
HDFS fournit un système de fichiers extrêmement
résistant et bien documenté. Malheureusement, son
NameNodeunique est un point de défaillance
identifié qui réduit la disponibilité de la solution. Le
NameNode coordonne l’accès aux données dans le
système de fichiers. Pour les clusters Hadoop qui
recourent à des charges interactives (HBase), à
l’extraction, la transformation et le chargement en
temps réel ou à des processus métier traités en lots,
une panne du NameNode HDFS peut poser un
sérieux problème. Lorsqu’elle se produit, c’est
l’immobilisation : les utilisateurs sont mécontents et
la productivité s’en ressent. La communauté Hadoop
et Apache travaillent aujourd'hui d'arrache-pied pour
développer un NameNode haute disponibilité. Le
produit devrait être prêt avec Hadoop 2.0. Dans le
même temps, plusieurs fournisseurs de solutions de
stockage en cloud privé, tels que NetApp avec FAS
et V-Series, EMC avec Isilon, et Cleversafe et sa
technologie Dispersed Storage, intègrent à leurs
produits de stockage un correctif pour NameNode.
Le deuxième inconvénient d’Hadoop auquel le
stockage en cloud privé peut apporter une réponse
est légèrement pire que le premier. HDFS effectue au
moins deux copies des données, ou trois au total,
pour garantir la résistance souhaitée. Ce qui implique
de consommer trois fois plus d’espace de stockage.
Même en utilisant l’espace de stockage de serveurs
économiques, cela fait beaucoup : pour chaque péta-
octet de données réelles, 3 Po d’espace sont
consommés. Tout ce stockage utilise de l'espace sur
les racks, de l'espace au sol, et surtout de l’électricité
pour l’alimentation et le refroidissement. Cleversafe
a résolu la question en fournissant une interface
HDFS qui élimine les copies multiples grâce à
LES LIMITES DE LA
TECHNOLOGIE
PRESENTATION
LES LIMITES DE LA
TECHNOLOGIE
RETOUR D’EXPÉRIENCE : QUE
FAUT IL RETENIR
HADOOP EN PRATIQUE 5
l'utilisation d’un code d’effacement du stockage
réparti. Ce stockage réparti permet de diminuer de
60 % l’espace utilisé, tout en garantissant une
fiabilité supérieure à celle qu’offre la technologie
HDFS standard.
Se pose ensuite la question du déplacement des données
vers un cluster Hadoop. Pour être traitées, les données
doivent migrer vers le cluster Hadoop. Ce n’est pas une
sinécure et l’opération peut s’avérer plus ou moins
chronophage, selon la quantité de données à traiter et à
analyser. Et il s’agit d’une tâche continue. La solution
EMC Isilon propose un raccourci. Elle peut représenter
des données NFS ou CIFS (SMB1 ou SMB2) placées
dans un cluster de stockage Isilon sous la forme de
données HDFS, éliminant ainsi le recours à une
migration. À l’inverse, elle peut également représenter les
données HDFS sous forme de données NFS ou CIFS
pour permettre leur exploitation hors du cluster Hadoop.
– Marc Staimer
2. HADOOP : ENCORE TROP LENT POUR L’ANALYTIQUE TEMPS RÉEL ?
Avec tout le buzz généré par Hadoop dans les milieux IT
ces jours-ci, il est facile de penser que le framework
Open Source a la capacité d’appréhender toutes les
problématiques des environnements Big Data. Mais
l’analyse en temps réel et l’émission de requêtes sur les
données contenues dans Hadoop font notamment partie
de l’exception.
Hadoop est optimisé pour absorber un grand volume de
données structurées, ou non structurées, mais a été
développé pour fonctionner en mode batch - un mode de
traitement par lots qui ne convient pas aux exigences de
rapidité et de performances pour l’analyse rapide de
données.
Jan Gelin, vice-président des opérations techniques chez
Rubicon Project, affirme que la vitesse d’analyse est
quelque chose de nécessaire pour les régies publicitaires -
malheureusement. Rubicon Project, basé en Californie,
développe une plate-forme de vente d’espaces
publicitaires sur les pages Web, qui s’affichent en
fonction des visites des internautes. Le système permet
aux publicitaires d’accéder à des informations sur les
visiteurs de sites avant de faire une offre et s’assurer que
les publicités ne sont vues que par les internautes
potentiellement intéressés. Gelin explique que le
LES LIMITES DE LA
TECHNOLOGIE
PRESENTATION
LES LIMITES DE LA
TECHNOLOGIE
RETOUR D’EXPÉRIENCE : QUE
FAUT IL RETENIR
HADOOP EN PRATIQUE 6
processus implique de nombreuses analyses qui doivent
s'effectuer en une fraction de seconde.
Rubicon s’appuie fortement sur Hadoop pour motoriser
sa plate-forme d’enchères d’espaces publicitaires. Mais la
clé, soutient-il est de coupler Hadoop à d’autres
technologies qui peuvent gérer de véritables analyses en
temps réel. Rubicon a par exemple recours au moteur
CEP de Strom pour capturer et analyser rapidement de
grandes quantités de données lors du processus
d’enchères d’espaces. Storm envoie ensuite les données
dans un cluster Hadoop fonctionnant sur la distribution de
MapR Technologies. Le cluster Hadoop est d’abord
utilisé pour transformer les données et les adapter à des
applications analytiques plus traditionnelles, comme
celles de reporting. Même pour cette étape, le gros des
informations est chargé dans une base analytique
Greenplum une fois le processus de transformation
finalisé.
Selon Gelin, les volumes de données que produit Rubicon
au quotidien sont confiées aux muscles d’Hadoop. Mais
lorsqu’il s’agit d’analyser les données, commente-t-il «
vous ne pouvez ignorer qu’Hadoop repose sur un système
de batch. Il existe d’autres choses au dessus d’Hadoop
qui sont en fait comme du vrai temps réel ». Plusieurs
spécialistes Hadoop essaient de dépasser ces limites en
matière d’analytique en temps réel. Cloudera a annoncé
en avril son moteur de requête Impala, avec la promesse
de pouvoir exécuter des requêtes SQL sur des données
Hadoop avec des performances proches du temps réel.
Pivotal, une spinoff d’EMC et de VMware a suivi avec le
lancement, trois mois après, d’une technologie identique
baptisée Hawq. Sans parler de Splunk qui capture les flux
de données issus de machines et de capteurs. La société a
développé un outil d’analyse de données Hadoop baptisé
Hunk.
La version 2 du framework Hadoop, sortie en octobre,
contribue aussi à cet effort en ouvrant les systèmes
Hadoop à des applications autres que les tâches
MapReduce. Avec tous ces outils et fonctions, Hadoop
devrait bientôt être capable de relever le défi de l’analyse
en temps réel, relève Mike Gualtieri, analyste au sein du
cabinet Forrester Research. Un des moteurs, selon lui, est
que les éditeurs ainsi que les utilisateurs sont déterminés
à faire fonctionner la technologie en temps réel - ou
presque - pour l’analytique.
« Hadoop est fondamentalement un environnement en
mode Batch. Toutefois. à cause de son architecture
distribuée et parce que de nombreux cas d’usage
impliquent de placer ses données dans Hadoop, de
La réalité Hadoop
LES LIMITES DE LA
TECHNOLOGIE
PRESENTATION
LES LIMITES DE LA
TECHNOLOGIE
RETOUR D’EXPÉRIENCE : QUE
FAUT IL RETENIR
HADOOP EN PRATIQUE 7
nombreux éditeurs et utilisateurs font la demande de
possibilité de requêtes temps réel sur Hadoop. Et c’est
une demande saine. »
Gualtieri voit deux principaux obstacles à cela. Le
premier : la plupart de ces nouveaux moteurs de requêtes
Hadoop ne sont toujours pas aussi rapides que ce que
peuvent proposer les bases de données traditionnelles.
Les outils comme Impala et Hawq fournissent des
interfaces qui permettent aux utilisateurs d’écrire des
requêtes en SQL. Celles-ci sont ensuite converties en
MapReduce pour être exécutées sur un cluster Hadoop,
mais ce processus est en soi plus lent que d’exécuter une
requête directement sur une base de données
relationnelle, lance Gualtieri.
Le second obstacle, entrevu par Gualtieri, est que Hadoop
n’est actuellement qu’un système « read-only », une fois
que les données ont été inscrites dans HDFS (Hadoop
Distributed File System). Les utilisateurs ne peuvent pas
facilement insérer, supprimer ou encore modifier les
données stockées dans le système de fichiers comme ils
le font dans une base de données traditionnelle, affirme-t-
il.
Joint par email, Nick Heudecker de Gartner admet que
même si les nouveaux moteurs de requêtes ne supportent
par de vraies fonctions analytiques en temps réel, ils
permettent tout de même aux utilisateurs, avec moins de
bagages techniques, d’accéder et d’analyser des données
stockées dans Hadoop. Cela permet de réduire la durée du
cycle ainsi que les coûts associés à l’exécution des tâches
analytiques car les développeurs MapReduce n’ont plus
besoin de s’impliquer dans la programmation de requêtes,
affirme-t-il.
Les entreprises devront évaluer s’il s’agit d’une
justification suffisante pour déployer de tels outils. La
scalabilité et la disponibilité d’Hadoop sont séduisantes
— mais cela peut envoyer certaines entreprises dans la
mauvaise direction, affirme Patricia Gorla, consultant IT
au sein du cabinet OpenSource Connections. Ce qui est
capital, indique Gorla, c’est trouver le meilleur usage
d’Hadoop - et ne pas essayer de l’insérer, en force, au
sein d'une architecture système. « Hadoop est bon dans ce
qu’il fait, et pas dans ce qu’il ne fait pas. » – Cyrille
Chausson
Les freins à l’analyse temps réel
LES LIMITES DE LA
TECHNOLOGIE
PRESENTATION
LES LIMITES DE LA
TECHNOLOGIE
RETOUR D’EXPÉRIENCE : QUE
FAUT IL RETENIR
HADOOP EN PRATIQUE 8
3. LES BÉNÉFICES D’HADOOP SURPASSENT-ILS LES PROBLÈMES DE LA TECHNOLOGIE?
Si Hadoop reste un sujet de discussion populaire lorsque
l’on parle d’environnements Big Data, la technologie est
aussi la cible d’une quantité de critiques. Non seulement
la technologie est assez complexe et requiert des
compétences précises, mais les professionnels IT doivent
aussi être conscients d’inconvénients comme la présences
de points de fautes uniques dans l’architecture Hadoop ou
des besoins de capacités accrus. Selon John Webster, un
des associés du cabinet Evaluator Group, les bénéfices
d’Hadoop valent bien quelques secousses. Pour LeMagIT
Webster fait l’état des bénéfices d’Hadoop et de ses
principaux problèmes.
John Webster: Mis à part le manque de compréhension
sur ce qu’est Hadoop et sur comment l’utiliser – ce qui
devrait changer assez rapidement – les utilisateurs
pointent souvent du doigt les points de faute uniques dans
Hadoop. Il y a deux types de nœuds : les NameNodes et
les DataNodes. Si le NameNode connaît une défaillance,
le cluster arrête tout simplement de fonctionner, et il
s’agit bien d’un single point of failure. Mais la fondation
Apache, qui pilote le développement de la version libre
d’Hadoop s’est attaquée au problème. Dans la dernière
version d’Hadoop, il existe désormais un mécanisme de
failover. Et puis il y a aussi des distributions
commerciales qui peuvent offrir un support HA en mode
actif/actif pour les name nodes. Les choses évoluent et le
problème est en passe d’être résolu.
Un autre point de débat est le fait qu’Hadoop réalise
systématiquement trois copies des données ingérées dans
le cluster. Vous prenez un fichier, l’écrivez sur disque et
il est alors répliqué deux fois. Ainsi vous avez au trois
copies complète de chaque donnée, une primaire et deux
fall back. Il n’y a aucun concept de Raid. Les copies sont
là en cas de défaillance de telle façon à ce que vous
puissiez chercher les données sur un autre nœud en cas de
souci. Ce niveau d’inefficacité est l’une des choses que
l’IT d’entreprise a du mal à comprendre.
L’autre problème est que pour ajouter de la capacité de
stockage à un cluster Hadoop, il faut ajouter de nouveaux
Datanodes, mais ceux-ci arrivent aussi avec un certain
nombre de CPU. Si votre cluster comporte 500 ou 1000
nœuds, il n’est pas rare que l’utilisation des CPU chute
sous la barre des 10%.Dans de très grands clusters
l’utilisation des CPU peut chuter à 4 à 5%. Les
entreprises voient cela comme du gaspillage de
ressources et se demandent s’il n’est pas possible de faire
Quels sont les principaux problèmes avec
Hadoop?
LES LIMITES DE LA
TECHNOLOGIE
PRESENTATION
LES LIMITES DE LA
TECHNOLOGIE
RETOUR D’EXPÉRIENCE : QUE
FAUT IL RETENIR
HADOOP EN PRATIQUE 9
évoluer séparément la capacité de stockage de la capacité
CPU. Il existe des façons d’y parvenir
Webster: Elle s’est améliorée et continue à l’être et cela
va continuer. Il y a une vraie demande pour Hadoop en
entreprises et cela est du au fait que la technologie peut
faire des choses qu’un datawarehouse traditionnel ou
qu’un infrastructure de calcul ne peut réaliser. Hadoop
offre des performances élevées à grande échelle et à un
coût faible. Ce sont trois choses [la performance,
l’évolutivité et les faibles coûts] que les entreprises
apprécient ; il suffit maintenant d’éliminer les derniers
bugs. Une fois que cela sera fait, je pense que vous verrez
[Hadoop] proliférer dans les environnements de
production. Encore une fois tout dépend du type
d’applications que vous entendez utiliser sur Hadoop,
mais je pense que cela va se résoudre dans les années à
venir.
Webster: Il y a et il y a eu des alternatives Hadoop dans
la communauté : MySQL, NoSQL, NewSQL. Si vous
programmez des clusters parallèles avec ces langages et
utilisez ces bases de données, vous pouvez disposer de
capacités analytiques très évolutives comme alternatives
à Hadoop. Donc, il y a bien des alternatives sur le
marché. Ceci dit pour vous donner un exemple de la
puissance d’Hadoop, je parlais ce matin à une entreprise
financière qui a cinq divisions et chacune d’entre elles a
ses propres données sur les 32000 sociétés qu’elles
suivent. Ce que voulait cette société était de pouvoir
analyser les données dont elle disposait sur ces 32 000
compagnies pour détecter tout signe de problème tant
dans leurs données financières que dans les données
Les professionnels de l’IT sont au fait de
ces difficultés. Aussi pourquoi est-ce que
l’on entend toujours autant parler
d’Hadoop? La situation s’est-elle améliorée
depuis que la technologie est apparue?
Alors pour résumer, A quel point Hadoop
est il nécessaire dans les environnements
BigData et si vous ne souhaitez pas le
mettre en oeuvre, quelles purraient être les
alternatives ?
LA TECHNOLOGIE, SES
USAGES ET SES LIMITES
LES LIMITES DE LA
TECHNOLOGIE
PRESENTATION
LES LIMITES DE LA
TECHNOLOGIE
RETOUR D’EXPÉRIENCE : QUE
FAUT IL RETENIR
HADOOP EN PRATIQUE 10
textuelles transmises à la FCC – en fait une masse de
données structurées, non structurées, etc. Ils ont tenté de
faire ça avec les plates-formes traditionnelles et sont
parvenus à la conclusion qu’il leur faudrait des mois.
Ils ont mis en place un cluster Hadoop, de taille plutôt
modeste, et ont découvert qu’ils pouvaient obtenir leur
résultat en environ 30 minutes sur un jeu de données
compressées de 3 To, ce qui est plutôt puissant. Passer
d’une application qui aurait requis 3 mois sur une plate-
forme standard à 30 minutes, fait toute la différence.
Cela signifie, selon les administrateurs, que l’on passe
d’une situation de type « c’est impossible » à une
situation où « c’est possible avec Hadoop ». C’est de cela
qu’il s’agit. On parle de gens qui peuvent faire des choses
qu’ils ne pouvaient tout simplement pas faire
auparavant. – Christophe Bardy
4. QUELS USAGES POUR HADOOP : UN REGARD SUR LE
STOCKAGE, LES APPLIANCES ET L’ANALYTIQUE
Hadoop peut être un outil utile dans les environnements
Big Data, mais selon John Webster, un associé senior du
cabinet Evaluator Group de Boulder, une large part des
critiques de la technologie provient d’incompréhensions
quant aux usages potentiels d’Hadoop. Dans cet article en
deux parties, Webster explique le rôle d’Hadoop en
matière de stockage de données en volume, répond à la
question de savoir si HDFS peut être utilisé comme
alternative au stockage objet et revient sur les
changements qui sont nécessaires pour accélérer
l’adoption d’Hadoop.
SearchStorage.com : Qu’est-ce qu’entendent les
entreprises quand elles parlent d’Hadoop et d'océans
de données ?
John Webster : Lorsque j’entends « Océan de
données », je pense à cet environnement massif et
évolutif où vous pouvez stocker tout un tas de choses et
les retrouver quand vous en avez besoin. C’est
typiquement le concept que poussent les vendeurs
traditionnels de systèmes de datawarehouse lorsqu’ils
font référence à Hadoop. Ce qu’ils disent est que
l’entreprise peut utiliser Hadoop comme un emplacement
où positionner de multiples types de données, structurées,
non structurées, fichiers… à partir desquels il faut
extraire du sens dans le contexte d’un datawarehouse. Les
entrepôts de données traditionnels ne sont pas très bons
pour traiter ce type de données, donc vous avez cet océan
de données dans lequel vous pouvez déverser tout un tas
d’informations, et vous pouvez l’utiliser pour alimenter
un datawarehouse existant, auquel cas, Hadoop devient
LES LIMITES DE LA
TECHNOLOGIE
PRESENTATION
LES LIMITES DE LA
TECHNOLOGIE
RETOUR D’EXPÉRIENCE : QUE
FAUT IL RETENIR
HADOOP EN PRATIQUE 11
essentiellement un moteur d’extraction, de transformation
et de chargement. C’est un endroit où vous pouvez
déverser des données, puis en extraire ce dont vous avez
besoin pour les mettre dans le datawarehouse. Dans
certains cas, Hadoop peut aussi servir de magasins
d’archivage.
SearchStorage.com : En quoi le fait qu’Hadoop soit
bâti sur un système de gestion de fichiers est-il
important pour son rôle en matière de stockage de
données ?
John Webster : Il ne s’agit pas que du fait qu’Hadoop
est un filesystem – Pour moi, il s’agit d’un système de
gestion de fichiers distribué ; ce qui est réellement le
point différentiant. L’idée est que vous avez un système
de fichiers qui fonctionne sur un cluster de serveurs et ce
cluster peut être étendu à plusieurs milliers de nœuds. Il
s’agit d’un système de gestion de fichiers très
« élastique ». Vous pouvez l’étendre, le compresser, et il
peut couvrir un grand nombre de serveurs différents.
SearchStorage.com : Pensez-vous qu’Hadoop puisse
être utilisé comme une alternative aux « object
stores » pour les grands jeux de données ?
John Webster : Si j’étais un acheteur de systèmes de
stockage et que je cherchais un object store, par exemple
pour une application d’archivage – ce qui est l’une des
applications pour les systèmes de stockage objet -, ma
réponse serait négative. Je ne mettrai pas Hadoop dans la
catégorie des object stores. Hadoop est quelque chose que
vous pouvez programmer, alors que des équipements de
stockage typiques, comme des baies SAN ou NAS, ne
sont pas vraiment programmables , au sens où on l’entend
habituellement – c’est à dire l’aptitude à accueillir des
applications. Alors que c’est typiquement ce que l’on fait
avec Hadoop. Je conçois Hadoop comme une plate-forme
de stockage sur laquelle on fait aussi tourner des
applications, alors qu’un object store sert habituellement
des données à des applications [fonctionnant sur des
systèmes séparés].
SearchStorage.com : On entend beaucoup parler
d’Hadoop mais pensez-vous qu’il y ait assez
d’applications basées sur la plate-forme pour
accélérer son adoption ?
John Webster : Il y a deux points à considérer, ici, du
moins du point de vue de l’entreprise. La première est
qu’il y a un grand nombre de sociétés sur le marché qui
selon toute vraisemblable ont un cluster Hadoop quelque
part dans leur organisation, peut-être parce que le
LES LIMITES DE LA
TECHNOLOGIE
PRESENTATION
LES LIMITES DE LA
TECHNOLOGIE
RETOUR D’EXPÉRIENCE : QUE
FAUT IL RETENIR
HADOOP EN PRATIQUE 12
marketing a acquis un système provenant d’une société
qui vend la technologie sous forme d’appliance « prête à
l’emploi » ou parce que quelqu’un au sein de l’IT a
assemblé quelques serveurs, téléchargé le code libre et
déployé Hadoop dans un bac à sable pour voir de quoi il
s’agit exactement. Pourquoi parle-t-on autant d’Hadoop ?
Que peut-on faire avec ? Les gens du marketing qui font
du « shadow IT » savent pertinemment quoi en faire car
ils utilisent déjà activement la technologie. D’un autre
côté, il n’est pas rare de trouver Hadoop au sein de bacs à
sable et de voir l’IT « jouer » avec la technologie sans
vraiment voir d’application pratique pour l’instant, sans
vraiment savoir qu’en faire ou comment le programmer.
Il s’agit typiquement des deux scénarios que l’on
rencontre dans les environnements d’entreprise.
Dans le cas de l’IT, je pense que les équipes
informatiques l’utilisent pour tenter de déterminer quel
type d’applications peuvent fonctionner sur Hadoop. Ils
sont peut-être parvenus à la conclusion qu’ils vont devoir
développer ces applications eux-mêmes, ce qui est
fréquemment le cas. Mais il y a aussi déjà beaucoup
d’applications qui apparaissent et qui vont permettre à
l’entreprise d’affirmer plus simplement : « OK, voici les
scénarios d’usage d’Hadoop ; nous n’avons pas besoin
d’une armée de data scientist à 300 000$ par an pour tirer
profit de cette plate-forme ». Nous ne sommes plus loin
d’un point d’inflexion où l’entreprise devient consciente
qu’il y a vraiment des applications à valeur ajoutée sur le
marché qui permettent de faire des choses avec Hadoop
et qui produisent des résultats jusqu’alors inconnus.
Certaines des informations que les entreprises
parviennent à extraire d’Hadoop sont tout simplement
stupéfiantes. – Christophe Bardy
5. EFFET DU HYPE BIG DATA : LES ENVIRONNEMENTS
HADOOP NE SONT PAS INTÉGRÉS AU SI
Le hype autour du Big Data, très prononcé en 2012, a
causé une forme de désordre, presqu’infantile, dans
l’organisation des entreprises. Des environnements
Hadoop en silo, un excès d’expérimentation, une
exagération de l’importance des data scientists sont les
problèmes de jeunesse pointés du doigt par certains
experts, qui proposent que les entreprises gèrent leurs
données comme un actif à part entière.
Steve Shelton, qui dirige le département Data Services au
sein du cabinet de conseil Detica, une division de BAE
Systems, affirme que les silos Hadoop sont devenus une
composante des systèmes des entreprises, à la fois du
secteur privé et public. « Les entreprises se sont
focalisées sur cette nouvelle chose appelée Big Data et
LES LIMITES DE LA
TECHNOLOGIE
PRESENTATION
LES LIMITES DE LA
TECHNOLOGIE
RETOUR D’EXPÉRIENCE : QUE
FAUT IL RETENIR
HADOOP EN PRATIQUE 13
ont essayé de l’isoler (en 2011, comme en 2012). »
Cet effort s’est surtout concentré sur les types de données
qui n’étaient pas traditionnelles. Poussé par les
fournisseurs de technologies. La valeur métier des
données se révèle pourtant davantage lorsqu’on considère
qu’elles font partie d’un ensemble, qu’elles soient « big »
ou pas, ajoute-t-il.
Les technologies Big Data ont-elles distrait les
entreprises ? « Je crois que cela a fait évoluer les choses
en terme d’apprentissage, mais les entreprises font
aujourd’hui machine arrière. Lorsqu’on parle de
gouvernance de l’information, vous devez considérer les
données dans leur ensemble », soutient Shelton.
Selon lui, Detica a entendu des réclamations, des plaintes
à propos de silos Hadoop, et ceux-là étaient l’oeuvre de
personnes qui ont dépassé les phases de Proof-of-concept,
mis rapidement en place un cluster Hadoop et ont monté
une équipe. Mais une plate-forme Hadoop nécessite des
dépenses supplémentaires en terme de gestion et
d’intégration avec les processus existants de l’entreprise.
« Il ne s’agit pas d’une perte de temps et d’argent. Il
s’agit juste d’une étape. Et ce n’est pas un défi
insurmontable. La prochaine étape est d’intégrer ces
silos, mais aujourd’hui, la réflexion est encore immature
comparé à la technologie en elle-même », souligne
encore Shelton.
Debra Logan, une analyste reconnue, spécialisée dans
l’information management au sein de Gartner, soutient de
son côté qu’il existe une exagération cohérente avec la
rhétorique du Big Data. « C’est le numéro deux des
termes le plus recherchés sur Gartner.com, après le Magic
Quadrant, mais selon moi, d’après les entretiens menés en
face à face avec les clients, il apparait que 97% des
entreprises sont uniquement dans une phase
exploratoire », affirme-t-elle. « Nous avons certes des
clients dans les médias, qui gèrent de la vidéo, par
exemple. Mais, même les banques ne gèrent pas vraiment
des Big Data. Leurs données sont très organisées.
L’analytique pour la détection de fraudes, par exemple,
repose sur des méthodes qui n’ont pas beaucoup
changé », commente-t-elle. Bien que, finalement, Hadoop
soit intéressant d’un point de vue infrastructure sous-
jacente, ajoute-t-elle.
Les problèmes de jeunesse du Big Data
LES LIMITES DE LA
TECHNOLOGIE
PRESENTATION
LES LIMITES DE LA
TECHNOLOGIE
RETOUR D’EXPÉRIENCE : QUE
FAUT IL RETENIR
HADOOP EN PRATIQUE 14
Logan affirme que l’emballement actuel du marché,
autour de la gestion de l’information, représente une
« bonne opportunité de développement de carrière », et
confirme qu’il existe bien un manque en terme de
compétences et d’expertises mathématiques. Les clients
de Gartner sont partis chercher de l’expertise autour de la
donnée dans la communauté de fournisseurs, mais ils ne
l’ont pas trouvée », affirme-t-elle.
Il y a eu certes une explosion des postes et fonctions liée
à la gestion de l’information, démontrant ainsi que
presque personne jusqu’alors ne contrôlait la gestion des
données comme un composant métier dans les
entreprises.
Gartner a parlé à près de 50 CDO (Chief Data Officer), la
plupart en Amérique du nord et au Royaume-Uni et la
plupart employés par des sociétés des services financiers,
souvent avec une forte exigence en terme de conformité,
et formés à extraire de la valeur des données.
Bien que les DSI affirment que le recrutement de data
scientists soit lié au hype qui entoure le Big Data,
poursuit-elle, ils reconnaissent toutefois qu’il existe bien
un actif dans l’entreprise - la donnée - qui n’est
aujourd’hui justement pas géré comme un actif. – La
rédaction
LES LIMITES DE LA
TECHNOLOGIE
PRESENTATION
LES LIMITES DE LA
TECHNOLOGIE
RETOUR D’EXPÉRIENCE : QUE
FAUT IL RETENIR
HADOOP EN PRATIQUE 15
1. COMMENT FACEBOOK A DEPLOYE RAID SUR SES CLUSTERS HADOOP
L’année dernière, Facebook a déployé la technologie
RAID dans des larges clusters HDFS (Hadoop
Distributed File System), afin d’augmenter ses capacités
à plusieurs dizaines de petabytes, tout en minimisant la
réplication de données. L’équipe d’ingénieurs en charge
du projet a dû faire face à de nombreuses difficultés
durant l’ensemble du process, notamment au niveau de la
corruption des données et des contraintes
d’implémentation de RAID au sein de répertoires
particulièrement volumineux.
Le réseau social a également fait le choix d’implémenter
cette technologie qui comprend le mécanisme dit de
« Erasure codes » dans HDFS afin de réduire le niveau de
réplication de données dans HDFS.
RAID (Redundant Array of Independent disks)est un
moyen pour stocker les mêmes données dans différents
espaces de stockage (redondants), sur plusieurs disques
durs. HDFS est quant à lui le système de stockage
primaire utilisé par les applications reposant sur Hadoop.
Il fournit un accès haute performance aux données des
clusters Hadoop et est ainsi devenu un outil clé des
entreprises dans leur gestion des Big Data et de leurs
opérations analytiques.
Dans HDFS, un fichier est répliqué 3 fois, ce qui
provoque beaucoup de gâchis en matière d’espace de
stockage, indique l’équipe d’ingénieurs de Facebook. La
technologie RAID HDFS a permis au réseau social de
minimiser la réplication de données et réduire par
conséquent ce gâchis.
« Avec les déploiements de RAID sur nos clusters HDFS,
les niveaux de réplication globaux ont pu être
suffisamment abaissés pour représenter des dizaines de
petabytes de capacités alors économisés à la fin 2013 », a
indiqué cette même équipe dans un billet de blog.
Mais évidemment, ces opérations de déploiements de
RAID dans d’imposants clusters de plusieurs centaines de
petabytes de données ne sont pas sans difficultés. « Nous
souhaitions partager les enseignements appris lors du
projet », affirment les ingénieurs de Facebook.
Les enseignements
Retour d’expérience: que faut-il retenir
RETOUR D’
EXPÉRIENCE: QUE
FAUT-IL RETENIR
PRESENTATION
LES LIMITES DE LA
TECHNOLOGIE
RETOUR D’EXPÉRIENCE : QUE
FAUT IL RETENIR
HADOOP EN PRATIQUE 16
Lorsque Facebook a déployé RAID en production, il est
apparu que l’espace alors économisé était moins
important que ce qui avait été prévu. « Après quelques
recherches, nous avons décelé un problème dans RAID,
que nous avons baptisé le « problème du petit fichier »,
expliquent-ils.
L’équipe d’ingénieurs a ainsi établi que les fichiers avec
10 blocs logiques offraient la meilleure opportunité pour
économiser de l’espace. Plus le nombre de blocs est petit,
plus la capacité à pouvoir économiser de l’espace est
réduite. Si un fichier comporte moins de 3 blocs, RAID
ne parvient pas à économiser de l’espace. Selon les
résultats de recherche de l’équipe, plus de 50% des
fichiers dans les clusters en production étaient de taille
réduite (moins de 3 blocs).
Pour résoudre ce problème, l’équipe IT a regroupé les
blocs. « Nous avons développé un répertoire RAID pour
cibler ce problème de petit fichier, en nous basant sur une
unique observation : dans Hive, les fichiers dans le
répertoire enfant ne sont que rarement modifiés après leur
création. Ainsi, pourquoi ne pas traiter ce répertoire
comme un fichier, avec plusieurs blocs, puis y appliquer
RAID ? »
Un autre problème identifié par l’équipe de Facebook est
celui de la corruption des données, occasionné par un bug
de la reconstruction logique de RAID. Pour empêcher
cela, les ingénieurs ont calculé et stocké les checksums
CRC des blocs dans MySQL lors du déploiement de
RAID pour qu’à chaque fois que le système reconstruit
un bloc défaillant, le checksum soit comparé avec celui
dans MySQL pour vérifier la justesse des données, a
expliqué l’équipe de Facebook.
Autre difficulté, implémenter RAID dans un répertoire
avec plus 10 000 fichiers aurait nécessité une journée
entière pour être finalisée. « Si un dysfonctionnement
intervient lors de l’opération RAID, l’ensemble du
processus échoue, et le temps CPU utilisé jusqu’alors est
gâché », affirment les ingénieurs. La solution ?
« Paralléliser RAID », via un mapper sur les jobs
Mapreduce, où chaque mapper prend en compte
seulement une partie du répertoire et y applique RAID.
« Ainsi, les dysfonctionnements peuvent être encaissés
rien qu’en retentant l’opération sur les mappers impactés.
Empêcher la cooruption de données
RETOUR D’
EXPÉRIENCE: QUE
FAUT-IL RETENIR
PRESENTATION
LES LIMITES DE LA
TECHNOLOGIE
RETOUR D’EXPÉRIENCE : QUE
FAUT IL RETENIR
HADOOP EN PRATIQUE 17
Avec MapReduce, nous sommes capables de mettre en
RAID un répertoire important en quelques heures »,
soutient encore l’équipe.
Actuellement, chez Facebook, la technologie RAID sur
HDFS est déployée sur une couche séparée, au-dessus de
HDFS. Mais cela pose encore quelques problèmes aux
ingénieurs : le gaspillage de bande passante et d’ IO
disque. Autre souci identifié : lorsque des fichiers sont
répliqués d’un cluster à l’autre, il arrive parfois que les
PARfiles ne soient pas déplacés avec leurs fichiers
sources. Cela débouche régulièrement sur des pertes de
données. Pour contrer cela, les ingénieurs de Facebook
travaillent à ce que le support de RAID soit intégré
nativement à HDFS. « Un fichier pourra être RAIDé
lorsqu’il est créé la première fois sur HDFS, économisant
ainsi des IO disques. »
« Une fois déployé, le NameNode conserve les
informations du fichier et programme le block-fixing
quand les blocs RAID sont manquants. Le DataNode a la
charge de la reconstruction des blocs. « Cela ôte la
dépendance de HDFS RAID par rapport à MapReduce »,
concluent-ils. – Cyrille Chausson
2. LE SITE DE JEUX EN LIGNE KING.COM PASSE A
L’ANALYTIQUE BIG DATA AVEC HADOOP
Le site de jeu en ligne gratuit, King.com, basé en Suède
et présent en France, a revu son architecture de données
afin d’adresser la problématique de gestion des données
en volume, en provenance pour la plus grande partie de
Facebook.
Fondée en 2003, lasociété se présente comme le plus
important site de jeux occasionnels et sociaux dans le
monde, proposant notamment des tournois par catégories
(puzzle, stratégie, action, cartes ainsi que jeux sportifs).
Ces jeux, qui comprennent Bubble Witch Saga et Candy
Crush, ont attiré plus de 60 millions d’utilisateurs
abonnés, jouant, en tout, plus de 5 milliards de fois par
mois.
King.com a plus de 150 jeux dans son catalogue, tous
gratuits. Il génère des revenus via la vente de produits et
services dits « in-game », comme des vies
supplémentaires ou des boosters, ou encore via la
publicité.
RETOUR D’
EXPÉRIENCE: QUE
FAUT-IL RETENIR
PRESENTATION
LES LIMITES DE LA
TECHNOLOGIE
RETOUR D’EXPÉRIENCE : QUE
FAUT IL RETENIR
HADOOP EN PRATIQUE 18
Mats-Olov Eriksson, directeur de l’entrepôt de données
du groupe, affirme avoir travaillé sans technologie de Big
Data jusqu’alors, mais, face à l’augmentation du volume
de données générées par les jeux sur Facebook, la base de
données MySQL s’est retrouvée trop étriquée. Elle était
performante pour un million d’utilisateurs par jour mais
King.com doit gérer un flot de visiteurs 10 fois plus
important, à la fin 2012.
Et c’était sans compter avec le besoin de rapidité. « Si
vous disposez d’un environnement de production
reposant sur MySQL, vous devez attendre trop
longtemps. Même ajouter une simple colonne prend du
temps », ajoute-t-il.
Eriksson dispose d’un solide background en analytique et
en architecture de données dans des environnements en
ligne, pour les secteurs du marketing numérique ou des
jeux en lige. Il est responsable du stockage et du
traitement des données pour King.com ainsi que de la
maintenance du système, avec pour mission d’optimiser
l’analytique. Son équipe de 6 développeurs, qui devrait
s’étoffer de 5 autres membres dans les mois qui arrivent,
développe actuellement un entrepôt de données Hadoop.
Eriksson se définit lui-même comme un défenseur de
l’Open Source et préfère une approche de l’entrepôt de
données liée aux méta-donnée. Selon lui, il s’agit
«d’enregistrer des données dans une méthode moins
structurée afin de pouvoir tracer davantage d’interactions
utilisateurs (de toute forme) avec le jeux. »
Après plusieurs expérimentations, l’équipe a déployé une
distribution Cloudera en 2012. La société affirme que
cela lui permet d’avoir de la visibilité sur les modèles
d’usages des jeux et sur les préférences des joueurs, ainsi
que sur leurs comportements (lorsqu’ils sont par exemple
coincés à un niveau spécifique). « Nous observons les
taux d’échec par niveau, et quels niveaux sont les plus
difficiles - mais de façon positive », commente-t-il.
Développer un entrepôt de données
Hadoop
Une approche agil de l’analytique
RETOUR D’
EXPÉRIENCE: QUE
FAUT-IL RETENIR
PRESENTATION
LES LIMITES DE LA
TECHNOLOGIE
RETOUR D’EXPÉRIENCE : QUE
FAUT IL RETENIR
HADOOP EN PRATIQUE 19
L’équipe dédiée aux questions analytiques utilise une
grande variété d’outils. QlikView comme outil de
reporting, Apache Hive pour effectuer les requêtes sur les
données et R le langage de programmation Open Source
pour les statistiques. Elle s’appuie également sur des
applications statistiques comme celle des SAAS ou SPSS
d’IBM. « Il existe une valeur évidente à permettre aux
personnes d’expérimenter. Sur le court terme, cela n’est
certes pas très efficace, mais si vous mettez en place cet
environnement ouvert et créatif, il est plus facile d’attirer
de vrais talents, qui seront alors capables de lui donner de
la valeur. Ils peuvent tester de nouveaux outils, et cela
contribue à notre réussite », soutient Eriksson.
« Cloudera est une partie de l’ensemble qui nous offre un
avantage concurrentiel. Nous disposons d’un système très
agile lorsqu’il s’agit de suivre nos utilisateurs. Nous
parvenons à attirer les joueurs grâce à des dépenses en
marketing, nous devons donc connaître le retour sur
investissement en termes de marketing. Nous devons
recueillir tout ce que nous pouvons. Sans cela, nous
n’aurions pas l’ambition d’investir et du coup, la
croissance ralentirait. Nous serions comme aveugles »,
ajoute-t-il.
Il prévoit également d’utiliser la technologie de requêtes
en temps réel de Cloudera, Impala, d’ici à la fin de
l’année, mais reste encore sceptique quant à cette notion
de temps réel. « Je ne suis pas un grand fan de ce terme,
mais toutefois, nous allons y gagner à alimenter notre
entrepôt de données en quasi temps réel. D’un point de
vue utilisateur, le gain sera également notable. Si dans
une autre mesure, un problème est détecté sur l'une des
fonctions d’un jeu, nous pouvons nous adapter plus
rapidement ».
Il reste également très prudent quant à l'engouement qui
entoure le mouvement « data science ». « Il est dommage
que tout le monde ne parle que de data science, comme
s’il ne d’agissait que de la seule partie « sexy » du travail
sur les données. La maintenance est tout aussi
intéressante mais est également plus importante - c’est là
que tout se joue », souligne-t-il. « Dans les secteurs très
consommateurs de données, nous avons besoin de
davantage d’architectes qui s’intéressent à faciliter la vie
d’autres personnes. Aujourd’hui, tout le monde veut
devenir statisticien. Je rêverai de voir des personnes
davantage intéressées par cette approche
« facilitateur ». » – Cyrille Chausson
RETOUR D’
EXPÉRIENCE: QUE
FAUT-IL RETENIR
PRESENTATION
LES LIMITES DE LA
TECHNOLOGIE
RETOUR D’EXPÉRIENCE : QUE
FAUT IL RETENIR
HADOOP EN PRATIQUE 20
3. AIRBUS PASSE AU BIG DATA AVEC ORACLE POUR
L’ANALYSE DE SES ESSAIS EN VOL
La conception d’un avion est un processus complexe. Un
processus marqué, dans sa phase d’essais en vol, par une
succession de tests à traiter dans des délais très courts
(souvent une nuit) et une période restreinte (Time to
Market oblige) sans – bien sûr - jamais sacrifier la
sécurité ni la qualité.
Confronté à un « plafonnement de [ses] moyens actuels »
pour traiter des masses d’informations qui ont déjà
grandement augmenté depuis 5 ans, Airbus a décidé
l’année dernière de se pencher sur les outils Big Data. Le
but étant de se préparer à une nouvelle multiplication
annoncée des données, générées notamment par des
systèmes embarquées de plus en plus sophistiqués.
Sur la scène du Salon Big Data de Paris, Jean-Marc
Wattecant, le « Head of Data Processing, Flight and
Integration Test Centre » de l’avionneur, est revenu sur
ce projet ô combien sensible. Car « on ne parle pas ici
d’avions déjà livrés aux compagnies, mais de prototypes
que l’on est en train de développer et de tester, de pousser
aux limites pour montrer aux autorités de régulation que
l’on peut certifier un avion ».
Concrètement, lors de ces essais en vol, Jean-Marc
Wattecant et ses équipes récupèrent un ensemble
d’informations issues des bus avioniques standards et de
capteurs supplémentaires posés sur le prototype. « Ces
capteurs ont des rôles différents selon ce que l’on veut
observer. Cela peut aller de la température des moteurs à
des contraintes de charge sur la voilure ou sur le train
d’atterrissage », précise l’expert. Pour la campagne en
cours de l’A350, Airbus analyse par exemple jusqu’à 600
000 paramètres. Et certains capteurs émettent plusieurs
points par seconde. Résultat, « on arrive à avoir des
journées à plus de 2 To ».
Des essais qui génèrent aujourd’hui 2 To
des données par vol, et beaucoup plus
demain
RETOUR D’
EXPÉRIENCE: QUE
FAUT-IL RETENIR
PRESENTATION
LES LIMITES DE LA
TECHNOLOGIE
RETOUR D’EXPÉRIENCE : QUE
FAUT IL RETENIR
HADOOP EN PRATIQUE 21
Cette volumétrie est, en plus, en constante évolution.
« En effet, nous faisons des avions de plus en plus
complexes, dans le sens où nous cherchons toujours plus
de performances et de sécurité, explique le responsable
d’Airbus au MagIT. Il faut donc des calculateurs qui
permettent de gérer ces évolutions. C’est le même
phénomène que votre voiture : pour avoir une meilleure
consommation, vous avez un moteur optimisé avec des
calculateurs qui gère l’injection. La philosophie ici est la
même. On augmente la qualité intrinsèque du produit,
mais il faut des moyens pour le piloter. Et c’est ce que
nous contrôlons ».
Toutes ces informations sont enregistrées pendant le vol,
sous la supervision d’un ingénieur navigant d’essai en
charge de vérifier que les conditions de chaque test sont
bien respectées (vitesse, palier, angle, etc.). Puis de retour
au sol, le support de stockage est déchargé sur les
serveurs d’Airbus pour que son contenu soit analysé et
archivé (les données brutes devant aussi être fournies aux
autorités).
Responsable des outils IT pour ces analyses, Jean-Marc
Wattecant joue les modestes. Pour lui, la volumétrie qu’il
a à gérer n’aurait rien à voir avec les géants du web
comme Google ou Facebook. N’empêche. A titre de
comparaison, lors d’un récent colloque organisé à la
Maison des Mines de Paris, des experts et intégrateurs
estimaient que la volumétrie classique d’un projet BI
avoisinait le Téra de données. Dans une entreprise du
CAC 40, ce chiffre monte régulièrement entre 5 et 10 To.
Et pour les gros projets BI, les volumes atteignent les 40
To. En clair, dans le contexte de ses essais en vol, Airbus
traite tous les 20 jours des volumes de données
équivalents à la fourchette haute des projets BI
multinationaux.
Et encore, ces essais en vol sont le bout d’une chaîne de
tests. « C’est vraiment la phase finale du développement
de l’avion. Ils permettent à la fois de valider ce que l’on a
vu par d’autres moyens d’essais et de valider ce que l’on
ne peut pas certifier autrement, confirme Jean-Marc
Wattecant. En amont nous procédons à de nombreux tests
: numériques, de soufflerie, en labos, etc. ». Des étapes
qui, elles aussi, génèrent des données à « pérenniser »
pour pouvoir les soumettre au régulateur.
Des problèmes d’accès simultanés pour les
ingénieurs, mais pas de « Go » pour le vol
suivant sans analyse
RETOUR D’
EXPÉRIENCE: QUE
FAUT-IL RETENIR
PRESENTATION
LES LIMITES DE LA
TECHNOLOGIE
RETOUR D’EXPÉRIENCE : QUE
FAUT IL RETENIR
HADOOP EN PRATIQUE 22
Une fois les téraoctets générés en vol mis sur les serveurs
au sol, des ingénieurs aéronautiques entrent en scène pour
en tirer la substantifique moelle. « On a en moyenne 600
utilisateurs sur ces systèmes », évalue Jean-Marc
Wattecant. Avec, à la clef, un phénomène
d’embouteillage puisqu’une grosse partie des ingénieurs
est surtout intéressée par les vols qui ont eu lieu la veille
ou la semaine précédente. « On observe un réel problème
d’accès concurrents qui parfois nous crée des problèmes
de performances sur les moyens actuels », diagnostique le
responsable.
Un problème d’autant plus critique que les délais sont
serrés. Très serrés. « On n’a pas vraiment le choix de
prendre du retard […] Pour donner le « go » sur le vol du
lendemain, il faut être capable d’avoir fait une première
analyse des données du jour pour voir s’il n’y a pas de
risques ou de problèmes majeurs pour ne pas mettre en
danger l’avion (c’est quand même la première priorité !)
et pour vérifier que les tests étaient conformes à ce qui
était prévu », explique l’expert sur la scène du Salon.
Délais tendus, avions sophistiqués, données multipliées,
embouteillages. La situation n’est pas simple pour l’IT.
« Et on voit bien que ce n’est pas fini », pronostique-t-il,
évoquant en plus le lancement de nouveaux avions,
notamment « le programme NEO qui va rentrer en
période de « flight test » en fin d’année ».
Comme il était « déjà difficile avec les moyens standards
de répondre à l’attente », une action s’imposait. « Nous
avons des avions de plus en plus complexes et nous
n’avons pas nécessairement plus de temps. Donc il faut
trouver les moyens de traiter ce paradoxe », atteste le
représentant d’Airbus. D’autant plus qu’il ne s’agit pas
d’absorber un pic d’activité ponctuel et intense, mais bien
de s’adapter à une situation durable. « On n’est pas en
train de parler d’une quinzaine un peu difficile où on fait
travailler les équipes de manière un peu soutenue en se
disant que ça va passer. Ce n’est pas un pic… c’est un
plateau ».
Pour prendre le relai de l’existant et être ainsi capable
« de certifier les avions sur ce rythme-là pour être
présents sur le marché », Jean-Marc Wattecant décide
donc d’étudier des solutions réputées pour leurs fortes
capacités de traitement et de parallèlisation des process :
les outils Big Data.
RETOUR D’
EXPÉRIENCE: QUE
FAUT-IL RETENIR
PRESENTATION
LES LIMITES DE LA
TECHNOLOGIE
RETOUR D’EXPÉRIENCE : QUE
FAUT IL RETENIR
HADOOP EN PRATIQUE 23
Un choix qui, quand on s’appelle Airbus, ne se fait
cependant pas à la légère. Le Big Data n’a pas été conçu
ni défini pour ce genre d’industrie ultra-critique. Un point
crucial que confirme l’expert: « ces technos ne sont pas
disponibles dans nos standards Airbus […] Il a donc fallu
faire un parcours pour voir si cela avait du sens ».
Ce parcours au long cours d’Airbus débute par un RFI
(« Request For Information »), nom maison pour « Proof
of Concept » (PoC, en français « Preuve de Faisabilité »),
« une manière d’évaluer [ces solutions] en grandeur
nature ». Quatre acteurs majeurs (que l’avionneur ne
souhaite pas nommer) répondent à la demande. Ils se
voient mis à l’épreuve par Jean-Marc Wattecant qui leur
demande de faire un démonstrateur qui traite les deux
problèmes majeurs du métier : l’injection massive de
données et la lecture concurrente avec beaucoup
d’utilisateurs.
« On a pris des données d’un A380 dont nous disposions
déjà. Ensuite on a demandé aux sociétés consultées de
faire un chargement massif de ces données et de faire une
extrapolation par rapport à nos besoins », nous détaille-t-
il. « Après, […] on leur a donné notre soft maison […]
pour simuler une lecture et on leur a dit : « faites nous un
test avec un utilisateur, 10, 20, 30 » pour tester la
stabilité, quelle que soit la charge. ». Plusieurs éléments
ressortent de cette mise en situation riche en
enseignements. Le premier est que le Big Data est
aujourd’hui mature. « La technologie n’est plus au stade
de la recherche. Nous, nous ne sommes pas dans une
logique de labo : à la fin du projet, on veut une solution
industrielle. Donc parler de quelque chose
d’opérationnelle, c’était important ».
Mature donc. Et adapté au cas d’usage prévu. « On a vu
une stabilité dans la performance, même si on a beaucoup
d’utilisateurs en simultanée, ce qui est aujourd’hui un des
points faibles de notre façon de travailler ».
Autre avantage, le Big Data permettrait de décloisonner
les données et de concevoir de « nouveaux services ».
« Actuellement, notre environnement est orienté vol par
vol. Cela rend difficile les analyses de tendances au
travers de plusieurs vols ou de plusieurs avions d’un
même programme », regrette Jean-Marc Wattecant. Mais
Un « Proof of Concept » riche
d’enseignements pour tester le Big Data en
contexte industriel
RETOUR D’
EXPÉRIENCE: QUE
FAUT-IL RETENIR
PRESENTATION
LES LIMITES DE LA
TECHNOLOGIE
RETOUR D’EXPÉRIENCE : QUE
FAUT IL RETENIR
HADOOP EN PRATIQUE 24
avec les outils fournis « plus ou moins en standard » avec
tous les produits Big Data, « il y a clairement de quoi
faire des analyses transverses ». Aux métiers de trouver
lesquelles.
Bref, le RFI fait passer tous les voyants au vert pour
adopter en interne ces technologies à base d’Hadoop et de
MapReduce (« ils ont tous répondu avec la même
approche software, il n’y a pas eu d’exception là-
dessus »).
Oui mais voilà, entre un PoC et un déploiement industriel
critique, il y a quelques escales à ne pas oublier. Comme
le respect du calendrier de déploiement et la continuité de
l’activité des tests. Le système à choisir devant être
opérationnel pour les premiers essais en vol de l’A320
NEO (un moyen-courrier avec une nouvelle motorisation
plus économe), il n’était pas question pour Jean-Marc
Wattecant de rentrer dans un projet de plusieurs années.
Conséquence, Airbus a cherché - en plus de la
performance pure (traitement et accès simultanées aux
données) - une solution progressive qui permette dans un
premier temps de faire tourner son applicatif d’analyse
actuel, puis dans un deuxième temps - et seulement dans
un deuxième temps - d’envisager les « nouveaux
usages ». « On voulait y aller « step by step » sans que ce
soit un Big Bang, souligne bien le décideur IT. C’était
clef, sinon on n’était pas capable d’avoir quelque chose
de raisonnablement faisable pour la fin de cette année ».
Autre point discriminant, « le design ». Comprendre : la
modélisation des données en fonction de l’usage final.
« Cela a beau être des systèmes Big Data avec de la
puissance de calcul, si le design n’est pas correctement
fait, on a une performance qui n’apporte pas la valeur
attendue », avertit Jean-Marc Wattecant.
A l’issue de cette sélection, Airbus penche pour la Big
Data Appliance d’Oracle. L’expert IT de l’avionneur
avance trois raisons principales pour ce choix. La
capacité de transition par étapes planifiées et prévisibles.
Pas question de rentrer dans un
déploiement long et coûteux
« Big Data, ça ne veut pas dire magie»
RETOUR D’
EXPÉRIENCE: QUE
FAUT-IL RETENIR
PRESENTATION
LES LIMITES DE LA
TECHNOLOGIE
RETOUR D’EXPÉRIENCE : QUE
FAUT IL RETENIR
HADOOP EN PRATIQUE 25
Le prix (« il y a vraiment eu un différentiel là-dessus »).
Et l’intégration entre Hardware et Software (« quand on a
peu de temps devant nous, avoir des solutions déjà
intégrées est une manière de gérer notre risque planning –
le plus fort sur ce projet-là »).
Si les premiers ROI ne sont attendus qu’en 2015, Jean-
Marc Wattecant prévient néanmoins déjà : « Big Data, ça
ne veut pas dire magie ». Surtout dans un milieu
aéronautique où les technologies – encore jeunes –
demandent à être adaptées et mises à l’épreuve. « Rien
d’impossible, mais ça doit être bâti ». En sens inverse, les
équipes d’Airbus doivent de leur côté se familiariser avec
ces nouveautés pour en assurer la pérennité. « Il n’est pas
question de développer une solution industrielle et de ne
pas être capable de la supporter à la fin », insiste le
responsable.
Pas de magie à attendre, donc, d’autant que les retombées
doivent être bien contextualisées. De son expérience, et
sous réserve d’optimisations futures, l’expert d’Airbus
constate en effet que « la valeur du Big Data a vraiment
du sens quand on commence à avoir beaucoup d’accès
simultanés à la donnée où les systèmes classiques ont
rapidement des goulots d’étranglement ». Avec moins
d’utilisateurs, les bénéfices (en tout cas ceux du PoC)
sont moins tangibles.
Reste que le choix d’Oracle, un acteur renommé mais
américain, pour une entreprise européenne aussi
emblématique et sensible qu’Airbus, dans un
environnement IT où les révélations sur l’espionnage
industrielle et les backdoors s’enchaînent autour de
PRISM, pourrait poser question.
Pragmatique, Jean-Marc Wattecant ne balaye pas la
problématique d’un revers de main quand on lui pose la
question. Il se montre certes très confiant (« nous avons
plein de produits américains, notamment du Microsoft »).
Mais également prévoyant : « tous les serveurs sont
hébergés chez Airbus. Alors certes, ce sont des produits
Oracle, mais ils sont intégrés dans nos datacenters qui
sont surveillés et contrôlés par nos soins ».
A moins de 8 mois de la mise en service du nouveau
système, les équipes d’Airbus, d’Oracle et du cabinet de
conseils Sopra (qui a accompagné le projet) travaillent
L’A320 New Engine Option en approche
avec l’Appliance d’Oracle (en attendant
l’A30X)
RETOUR D’
EXPÉRIENCE: QUE
FAUT-IL RETENIR
PRESENTATION
LES LIMITES DE LA
TECHNOLOGIE
RETOUR D’EXPÉRIENCE : QUE
FAUT IL RETENIR
HADOOP EN PRATIQUE 26
sur le design des données et sur l’intégration à
l’environnement existant du constructeur. « On sait que
c’est une phase critique, donc on s’est donné trois mois ».
En revanche, la partie implémentation des couches de
données ne devrait, elle, pas poser de gros problèmes.
En tout état de cause, Jean-Marc Wattecant reste sur son
objectif initial : avoir un outil Big Data opérationnel pour
les 3 000 d’essais en vol des huit prototypes du
programme NEO. Si tout se passe bien, cette version re-
motorisée de l’A320 - avec des réacteurs plus gros à la
meilleure efficience énergétique - devrait décoller dans
les aéroports du monde entier au quatrième trimestre
2015. – Philippe Ducellier
4. LES BÉNÉFICES D’HADOOP SURPASSENT-ILS LES
PROBLÈMES DE LA TECHNOLOGIE?
Si Hadoop reste un sujet de discussion populaire lorsque
l’on parle d’environnements Big Data, la technologie est
aussi la cible d’une quantité de critiques. Non seulement
la technologie est assez complexe et requiert des
compétences précises, mais les professionnels IT doivent
aussi être conscients d’inconvénients comme la présences
de points de fautes uniques dans l’architecture Hadoop ou
des besoins de capacités accrus. Selon John Webster, un
des associés du cabinet Evaluator Group, les bénéfices
d’Hadoop valent bien quelques secousses. Pour LeMagIT
Webster fait l’état des bénéfices d’Hadoop et de ses
principaux problèmes.
John Webster: Mis à part le manque de compréhension
sur ce qu’est Hadoop et sur comment l’utiliser – ce qui
devrait changer assez rapidement – les utilisateurs
pointent souvent du doigt les points de faute uniques dans
Hadoop. Il y a deux types de nœuds : les NameNodes et
les DataNodes. Si le NameNode connaît une défaillance,
le cluster arrête tout simplement de fonctionner, et il
s’agit bien d’un single point of failure. Mais la fondation
Apache, qui pilote le développement de la version libre
d’Hadoop s’est attaquée au problème. Dans la dernière
version d’Hadoop, il existe désormais un mécanisme de
failover. Et puis il y a aussi des distributions
commerciales qui peuvent offrir un support HA en mode
actif/actif pour les name nodes. Les choses évoluent et le
problème est en passe d’être résolu.
Quels sont les principaux problèmes avec
Hadoop?
RETOUR D’
EXPÉRIENCE: QUE
FAUT-IL RETENIR
PRESENTATION
LES LIMITES DE LA
TECHNOLOGIE
RETOUR D’EXPÉRIENCE : QUE
FAUT IL RETENIR
HADOOP EN PRATIQUE 27
Un autre point de débat est le fait qu’Hadoop réalise
systématiquement trois copies des données ingérées dans
le cluster. Vous prenez un fichier, l’écrivez sur disque et
il est alors répliqué deux fois. Ainsi vous avez au trois
copies complète de chaque donnée, une primaire et deux
fall back. Il n’y a aucun concept de Raid. Les copies sont
là en cas de défaillance de telle façon à ce que vous
puissiez chercher les données sur un autre nœud en cas de
souci. Ce niveau d’inefficacité est l’une des choses que
l’IT d’entreprise a du mal à comprendre.
L’autre problème est que pour ajouter de la capacité de
stockage à un cluster Hadoop, il faut ajouter de nouveaux
Datanodes, mais ceux-ci arrivent aussi avec un certain
nombre de CPU. Si votre cluster comporte 500 ou 1000
nœuds, il n’est pas rare que l’utilisation des CPU chute
sous la barre des 10%.Dans de très grands clusters
l’utilisation des CPU peut chuter à 4 à 5%. Les
entreprises voient cela comme du gaspillage de
ressources et se demandent s’il n’est pas possible de faire
évoluer séparément la capacité de stockage de la capacité
CPU. Il existe des façons d’y parvenir
Webster: Elle s’est améliorée et continue à l’être et cela
va continuer. Il y a une vraie demande pour Hadoop en
entreprises et cela est du au fait que la technologie peut
faire des choses qu’un datawarehouse traditionnel ou
qu’un infrastructure de calcul ne peut réaliser. Hadoop
offre des performances élevées à grande échelle et à un
coût faible. Ce sont trois choses [la performance,
l’évolutivité et les faibles coûts] que les entreprises
apprécient ; il suffit maintenant d’éliminer les derniers
bugs. Une fois que cela sera fait, je pense que vous verrez
[Hadoop] proliférer dans les environnements de
production. Encore une fois tout dépend du type
d’applications que vous entendez utiliser sur Hadoop,
mais je pense que cela va se résoudre dans les années à
venir.
Les professionnels de l’IT sont au fait de
ces difficultés. Aussi pourquoi est-ce que
l’on entend toujours autant parler
d’Hadoop? La situation s’est-elle améliorée
depuis que la technologie est apparue?
RETOUR D’ EXPÉRIENCE:
QUE FAUT-IL RETENIR
RETOUR D’
EXPÉRIENCE: QUE
FAUT-IL RETENIR
PRESENTATION
LES LIMITES DE LA
TECHNOLOGIE
RETOUR D’EXPÉRIENCE : QUE
FAUT IL RETENIR
HADOOP EN PRATIQUE 28
Webster: Il y a et il y a eu des alternatives Hadoop dans
la communauté : MySQL, NoSQL, NewSQL. Si vous
programmez des clusters parallèles avec ces langages et
utilisez ces bases de données, vous pouvez disposer de
capacités analytiques très évolutives comme alternatives
à Hadoop. Donc, il y a bien des alternatives sur le
marché. Ceci dit pour vous donner un exemple de la
puissance d’Hadoop, je parlais ce matin à une entreprise
financière qui a cinq divisions et chacune d’entre elles a
ses propres données sur les 32000 sociétés qu’elles
suivent.
Ce que voulait cette société était de pouvoir analyser les
données dont elle disposait sur ces 32 000 compagnies
pour détecter tout signe de problème tant dans leurs
données financières que dans les données textuelles
transmises à la FCC – en fait une masse de données
structurées, non structurées, etc. Ils ont tenté de faire ça
avec les plates-formes traditionnelles et sont parvenus à
la conclusion qu’il leur faudrait des mois.
Ils ont mis en place un cluster Hadoop, de taille plutôt
modeste, et ont découvert qu’ils pouvaient obtenir leur
résultat en environ 30 minutes sur un jeu de données
compressées de 3 To, ce qui est plutôt puissant. Passer
d’une application qui aurait requis 3 mois sur une plate-
forme standard à 30 minutes, fait toute la différence.
Cela signifie, selon les administrateurs, que l’on passe
d’une situation de type « c’est impossible » à une
situation où « c’est possible avec Hadoop ». C’est de cela
qu’il s’agit. On parle de gens qui peuvent faire des choses
qu’ils ne pouvaient tout simplement pas faire
auparavant.
Alors pour résumer, à quel point Hadoop
est il nécessaire dans les environnements
BigData et si vous ne souhaitez pas le
mettre en oeuvre, quelles purraient être les
alternatives ?
RETOUR D’ EXPÉRIENCE:
QUE FAUT-IL RETENIR
RETOUR D’
EXPÉRIENCE: QUE
FAUT-IL RETENIR
PRESENTATION
LES LIMITES DE LA
TECHNOLOGIE
RETOUR D’EXPÉRIENCE : QUE
FAUT IL RETENIR
HADOOP EN PRATIQUE 29
AUTEURS
MARC STAIMER Fondateur, analyste en chef et président (ou
« pourfendeur de dragon en chef », comme il s’intitule lui-même) de
la société Dragon Slayer Consulting située à Beaverton, dans
l’Oregon. Trente-trois ans d’expérience cumulée dans le marketing
et les ventes viennent s’ajouter à une expérience en entreprise en
infrastructure, stockage, serveurs, logiciels, bases de données, Big
data et virtualisation, et font de lui l’un des principaux experts du
secteur.
CYRILLE CHAUSSON Chef des informations en ligne pour
lemondeinformatique.fr, il s’est très tôt intéressé aux supports
alternatifs aux publications papier et notamment au web. Il a occupé
plusieurs postes de journalistes sur les différents sites du groupe
IDG. En tant que chef d’enquête, il sera amené à traiter quelques
uns de ces sujets pour LeMagIT.fr et participera également à
l’évolution de la plate-forme technique du site.
CHRISTOPHE BARDY Co-fondateur du MagIT, Christophe y a dès le
début pris en charge les rubriques d'infrastructures (Datacenter,
Serveurs, réseaux, Stockage, systèmes d’exploitation, virtualisation.
Aujourd'hui, il est rédacteur en chef adjoint en charge des rubriques
d'infrastructures. Il contribue aussi au contenu éditorial de
StratégiesCloud.fr, le site d'information sur le Cloud du MagIT.
Le document consulté provient du site www.lemagit.fr
Cyrille Chausson | Rédacteur en Chef
Christophe Bardy | Journaliste
Marc Staimer | Journaliste
Linda Koury | Directeur Artistique
Neva Maniscalco | Designer
Mathilde Haslund | Assistante Marketing [email protected]
TechTarget
22 rue Léon Jouhaux, 75010 Paris
www.techtarget.com
©2014 TechTarget Inc. Aucun des contenus ne peut être transmis ou reproduit quelle que soit la
forme sans l'autorisation écrite de l'éditeur. Les réimpressions de TechTarget sont disponibles à
travers The YGS Group.
TechTarget édite des publications pour les professionnels de l'IT. Plus de 100 sites qui proposent
un accès rapide à un stock important d'informations, de conseils, d'analyses concernant les
technologies, les produits et les process déterminants dans vos fonctions. Nos
événements réels et nos séminaires virtuels vous donnent accès à des commentaires et
recommandations neutres par des experts sur les problèmes et défis que vous rencontrez
quotidiennement. Notre communauté en ligne "IT Knowledge Exchange" (Echange de
connaissances IT) vous permet de partager des questionnements et informations de tous les jours
avec vos pairs et des experts du secteur.