tout savoir sur hadoop : la technologie, ses usages et ses...

Tout savoir sur Hadoop : La technologie, ses usages et ses limites (2ème Partie) Hadoop suscite l'intérêt d'un nombre croissant d'entreprises. Dans ce guide, LeMagIT fait le tour sur les freins de cette technologie avec le retour de certains acteurs

1 KEINE ZEIT

MEHR VERLIEREN

2 DIE FÜNF TOP-THEMEN

BEI DER SEPA-UMSTELLUNG

3 SAP ERP IN DREI

SCHRITTEN FRIST-

GERECHT UMSTELLEN

4 WAS BEI SEPA-DIENSTEN AUS

DER CLOUD ZU BEACHTEN IST

PRÉSENTATION

LES LIMITES DE LA

TECHNOLOGIE

RETOUR D’EXPERIENCE : QUE

FAUT-IL RETENIR

PRESENTATION

LES LIMITES DE LA

TECHNOLOGIE

RETOUR D’EXPÉRIENCE : QUE

FAUT IL RETENIR

HADOOP EN PRATIQUE 2

JUIN 2014 Si Hadoop reste un sujet de discussion

populaire lorsque l’on parle d’environnements Big Data,

la technologie est aussi la cible d’une quantité de

critiques. Non seulement la technologie est assez

complexe et requiert des compétences précises, mais les

professionnels IT doivent aussi être conscients de certains

inconvénients qui pourraient pénaliser l’intégration du

framework dans le SI et ainsi ralentir le très précieux

ROI, nécessaire à l’aboutissement d’un projet.

LeMagIT a réuni au sein de ce dossier un ensemble

d'articles et de témoignages dont l'objectif est d'aider à se

rendre compte des limites d’Hadoop et de pouvoir mieux

l’utiliser.

CYRILLE CHAUSSON

Rédacteur en chef ,

TechTarget / LeMagIT

Présentation

PRESENTATION

PRESENTATION

LES LIMITES DE LA

TECHNOLOGIE


FAUT IL RETENIR


1. RESOUDRE LES DIFFICULTES POSEES PAR HADOOP

AU MOYEN D’UN STOCKAGE EN CLOUD PRIVE

Pourquoi utiliser un stockage en cloud privé avec Hadoop

? Cette plate-forme n’est-elle pas conçue pour utiliser

des serveurs et des ressources de stockage de masse

économiques ? En quoi l’intégration d’un stockage en

cloud privé pourrait-elle résoudre les problèmes posés par

Hadoop ? Pour répondre à ces questions, quelques

connaissances préalables sur le fonctionnement d’Hadoop

s’imposent…

Hadoop est le projet open source d’Apache destiné à

l'analyse de données non structurées. Il est conçu pour

fournir des informations pratiques et exploitables portant

sur de grands volumes de jeux de données

essentiellement non structurés. Mais il peut également

apporter les mêmes informations pour des données

structurés en volume, ou encore pour des combinaisons

de ressources structurées/non structurées. C’est toute la

valeur d’Hadoop que de tirer des informations

intéressantes de données qui, traditionnellement, n’étaient

pas facilement exploitables. Si sa capacité à passer au

crible les péta-octets d’informations reste inégalée, ce qui

fait vraiment la différence avec Hadoop, c’est qu’il n’est

pas nécessaire d’identifier un résultat attendu avant de

lancer la recherche. En effet, Hadoop établit des relations

que personne n’avait même envisagées. C’est aujourd’hui

un puissant outil tant pour l’informatique que pour

l’activité de l’entreprise.

Le concept fondamental d’Hadoop réside dans la

manipulation, le traitement et l’analyse de très grands

jeux de données (qui se chiffrent en péta-octets ; Po),

données qui sont alors automatiquement réparties dans

des espaces de stockage et des lots de traitement sur un

ensemble de clusters de serveurs à bas coûts. D’un seul

serveur à plusieurs milliers de machines, Hadoop est une

solution évolutive qui embarque une capacité de

tolérance aux pannes. Détection des défaillances et

automatisation lui confèrent une excellente résistance.

Derrière Hadoop se trouvent deux technologies

importantes : MapReduce et le HDFS, le système de

fichiers d’Hadoop.

MapReduce constitue l’infrastructure qui identifie et

attribue les lots de traitement aux nœuds d’un cluster

Hadoop. MapReduce exécute ces lots en mode parallèle,

ce qui permet à leur traitement et leur analyse de porter

sur de grandes quantités de données en très peu de temps.

HDFS, quant à lui, rassemble et relie tous les nœuds d’un

même cluster Hadoop en un seul grand système de

Les limites de la technologie

LES LIMITES DE LA

TECHNOLOGIE

http://searchcloudstorage.techtarget.com/feature/Private-cloud-storage-infrastructure-technology-options

http://searchcloudcomputing.techtarget.com/tip/Why-are-people-so-hung-up-on-Apache-Hadoop

http://searchbusinessanalytics.techtarget.com/news/2240146882/To-be-unstructured-data-is-to-be-misunderstood

http://searchbusinessanalytics.techtarget.com/feature/Big-data-analytics-projects-easier-said-than-done-but-doable

http://searchbusinessanalytics.techtarget.com/feature/Big-data-analytics-projects-easier-said-than-done-but-doable

http://searchdatamanagement.techtarget.com/news/2240178820/Confronting-MapReduce-Hadoop-problems-and-complexities

http://searchstorage.techtarget.com/answer/Ask-the-expert-What-to-expect-when-using-HDFS-in-Hadoop-architecture

PRESENTATION

LES LIMITES DE LA

TECHNOLOGIE


FAUT IL RETENIR


fichiers. Comme il arrive qu’il y ait défaillance, HDFS

garantit la fiabilité en répliquant les données à l’échelle

de plusieurs nœuds.

Mais alors, quel avantage le stockage en cloud privé

présente-t-il pour Hadoop ? Hadoop est un programme

évolutif qui rencontre actuellement trois difficultés

majeures que les fournisseurs de solutions de stockage en

cloud privé pourraient aplanir, voire éradiquer :

HDFS fournit un système de fichiers extrêmement

résistant et bien documenté. Malheureusement, son

NameNodeunique est un point de défaillance

identifié qui réduit la disponibilité de la solution. Le

NameNode coordonne l’accès aux données dans le

système de fichiers. Pour les clusters Hadoop qui

recourent à des charges interactives (HBase), à

l’extraction, la transformation et le chargement en

temps réel ou à des processus métier traités en lots,

une panne du NameNode HDFS peut poser un

sérieux problème. Lorsqu’elle se produit, c’est

l’immobilisation : les utilisateurs sont mécontents et

la productivité s’en ressent. La communauté Hadoop

et Apache travaillent aujourd'hui d'arrache-pied pour

développer un NameNode haute disponibilité. Le

produit devrait être prêt avec Hadoop 2.0. Dans le

même temps, plusieurs fournisseurs de solutions de

stockage en cloud privé, tels que NetApp avec FAS

et V-Series, EMC avec Isilon, et Cleversafe et sa

technologie Dispersed Storage, intègrent à leurs

produits de stockage un correctif pour NameNode.

Le deuxième inconvénient d’Hadoop auquel le

stockage en cloud privé peut apporter une réponse

est légèrement pire que le premier. HDFS effectue au

moins deux copies des données, ou trois au total,

pour garantir la résistance souhaitée. Ce qui implique

de consommer trois fois plus d’espace de stockage.

Même en utilisant l’espace de stockage de serveurs

économiques, cela fait beaucoup : pour chaque péta-

octet de données réelles, 3 Po d’espace sont

consommés. Tout ce stockage utilise de l'espace sur

les racks, de l'espace au sol, et surtout de l’électricité

pour l’alimentation et le refroidissement. Cleversafe

a résolu la question en fournissant une interface

HDFS qui élimine les copies multiples grâce à

LES LIMITES DE LA

TECHNOLOGIE

http://searchstorage.techtarget.com/video/Examining-HDFS-and-NameNode-in-Hadoop-architecture

http://searchdatamanagement.techtarget.com/definition/extract-transform-load

http://searchstorage.techtarget.com/podcast/Podcast-Hadoop-vendors-progress-toward-enterprise-ready-solutions

http://searchcloudstorage.techtarget.com/news/2240161426/Cleversafe-Inc-enhances-plans-for-big-data-storage-10-exabyte-cloud

http://searchcloudstorage.techtarget.com/news/2240161426/Cleversafe-Inc-enhances-plans-for-big-data-storage-10-exabyte-cloud

PRESENTATION

LES LIMITES DE LA

TECHNOLOGIE


FAUT IL RETENIR


l'utilisation d’un code d’effacement du stockage

réparti. Ce stockage réparti permet de diminuer de

60 % l’espace utilisé, tout en garantissant une

fiabilité supérieure à celle qu’offre la technologie

HDFS standard.

Se pose ensuite la question du déplacement des données

vers un cluster Hadoop. Pour être traitées, les données

doivent migrer vers le cluster Hadoop. Ce n’est pas une

sinécure et l’opération peut s’avérer plus ou moins

chronophage, selon la quantité de données à traiter et à

analyser. Et il s’agit d’une tâche continue. La solution

EMC Isilon propose un raccourci. Elle peut représenter

des données NFS ou CIFS (SMB1 ou SMB2) placées

dans un cluster de stockage Isilon sous la forme de

données HDFS, éliminant ainsi le recours à une

migration. À l’inverse, elle peut également représenter les

données HDFS sous forme de données NFS ou CIFS

pour permettre leur exploitation hors du cluster Hadoop.

– Marc Staimer

2. HADOOP : ENCORE TROP LENT POUR L’ANALYTIQUE TEMPS RÉEL ?

Avec tout le buzz généré par Hadoop dans les milieux IT

ces jours-ci, il est facile de penser que le framework

Open Source a la capacité d’appréhender toutes les

problématiques des environnements Big Data. Mais

l’analyse en temps réel et l’émission de requêtes sur les

données contenues dans Hadoop font notamment partie

de l’exception.

Hadoop est optimisé pour absorber un grand volume de

données structurées, ou non structurées, mais a été

développé pour fonctionner en mode batch - un mode de

traitement par lots qui ne convient pas aux exigences de

rapidité et de performances pour l’analyse rapide de

données.

Jan Gelin, vice-président des opérations techniques chez

Rubicon Project, affirme que la vitesse d’analyse est

quelque chose de nécessaire pour les régies publicitaires -

malheureusement. Rubicon Project, basé en Californie,

développe une plate-forme de vente d’espaces

publicitaires sur les pages Web, qui s’affichent en

fonction des visites des internautes. Le système permet

aux publicitaires d’accéder à des informations sur les

visiteurs de sites avant de faire une offre et s’assurer que

les publicités ne sont vues que par les internautes

potentiellement intéressés. Gelin explique que le

LES LIMITES DE LA

TECHNOLOGIE

http://searchstorage.techtarget.com/video/Understanding-storage-in-the-Hadoop-cluster

http://searchcloudstorage.techtarget.com/news/2240176064/EMC-brings-Syncplicity-file-syncing-collaboration-to-Isilon-Atmos

PRESENTATION

LES LIMITES DE LA

TECHNOLOGIE


FAUT IL RETENIR


processus implique de nombreuses analyses qui doivent

s'effectuer en une fraction de seconde.

Rubicon s’appuie fortement sur Hadoop pour motoriser

sa plate-forme d’enchères d’espaces publicitaires. Mais la

clé, soutient-il est de coupler Hadoop à d’autres

technologies qui peuvent gérer de véritables analyses en

temps réel. Rubicon a par exemple recours au moteur

CEP de Strom pour capturer et analyser rapidement de

grandes quantités de données lors du processus

d’enchères d’espaces. Storm envoie ensuite les données

dans un cluster Hadoop fonctionnant sur la distribution de

MapR Technologies. Le cluster Hadoop est d’abord

utilisé pour transformer les données et les adapter à des

applications analytiques plus traditionnelles, comme

celles de reporting. Même pour cette étape, le gros des

informations est chargé dans une base analytique

Greenplum une fois le processus de transformation

finalisé.

Selon Gelin, les volumes de données que produit Rubicon

au quotidien sont confiées aux muscles d’Hadoop. Mais

lorsqu’il s’agit d’analyser les données, commente-t-il «

vous ne pouvez ignorer qu’Hadoop repose sur un système

de batch. Il existe d’autres choses au dessus d’Hadoop

qui sont en fait comme du vrai temps réel ». Plusieurs

spécialistes Hadoop essaient de dépasser ces limites en

matière d’analytique en temps réel. Cloudera a annoncé

en avril son moteur de requête Impala, avec la promesse

de pouvoir exécuter des requêtes SQL sur des données

Hadoop avec des performances proches du temps réel.

Pivotal, une spinoff d’EMC et de VMware a suivi avec le

lancement, trois mois après, d’une technologie identique

baptisée Hawq. Sans parler de Splunk qui capture les flux

de données issus de machines et de capteurs. La société a

développé un outil d’analyse de données Hadoop baptisé

Hunk.

La version 2 du framework Hadoop, sortie en octobre,

contribue aussi à cet effort en ouvrant les systèmes

Hadoop à des applications autres que les tâches

MapReduce. Avec tous ces outils et fonctions, Hadoop

devrait bientôt être capable de relever le défi de l’analyse

en temps réel, relève Mike Gualtieri, analyste au sein du

cabinet Forrester Research. Un des moteurs, selon lui, est

que les éditeurs ainsi que les utilisateurs sont déterminés

à faire fonctionner la technologie en temps réel - ou

presque - pour l’analytique.

« Hadoop est fondamentalement un environnement en

mode Batch. Toutefois. à cause de son architecture

distribuée et parce que de nombreux cas d’usage

impliquent de placer ses données dans Hadoop, de

La réalité Hadoop

LES LIMITES DE LA

TECHNOLOGIE

PRESENTATION

LES LIMITES DE LA

TECHNOLOGIE


FAUT IL RETENIR


nombreux éditeurs et utilisateurs font la demande de

possibilité de requêtes temps réel sur Hadoop. Et c’est

une demande saine. »

Gualtieri voit deux principaux obstacles à cela. Le

premier : la plupart de ces nouveaux moteurs de requêtes

Hadoop ne sont toujours pas aussi rapides que ce que

peuvent proposer les bases de données traditionnelles.

Les outils comme Impala et Hawq fournissent des

interfaces qui permettent aux utilisateurs d’écrire des

requêtes en SQL. Celles-ci sont ensuite converties en

MapReduce pour être exécutées sur un cluster Hadoop,

mais ce processus est en soi plus lent que d’exécuter une

requête directement sur une base de données

relationnelle, lance Gualtieri.

Le second obstacle, entrevu par Gualtieri, est que Hadoop

n’est actuellement qu’un système « read-only », une fois

que les données ont été inscrites dans HDFS (Hadoop

Distributed File System). Les utilisateurs ne peuvent pas

facilement insérer, supprimer ou encore modifier les

données stockées dans le système de fichiers comme ils

le font dans une base de données traditionnelle, affirme-t-

il.

Joint par email, Nick Heudecker de Gartner admet que

même si les nouveaux moteurs de requêtes ne supportent

par de vraies fonctions analytiques en temps réel, ils

permettent tout de même aux utilisateurs, avec moins de

bagages techniques, d’accéder et d’analyser des données

stockées dans Hadoop. Cela permet de réduire la durée du

cycle ainsi que les coûts associés à l’exécution des tâches

analytiques car les développeurs MapReduce n’ont plus

besoin de s’impliquer dans la programmation de requêtes,

affirme-t-il.

Les entreprises devront évaluer s’il s’agit d’une

justification suffisante pour déployer de tels outils. La

scalabilité et la disponibilité d’Hadoop sont séduisantes

— mais cela peut envoyer certaines entreprises dans la

mauvaise direction, affirme Patricia Gorla, consultant IT

au sein du cabinet OpenSource Connections. Ce qui est

capital, indique Gorla, c’est trouver le meilleur usage

d’Hadoop - et ne pas essayer de l’insérer, en force, au

sein d'une architecture système. « Hadoop est bon dans ce

qu’il fait, et pas dans ce qu’il ne fait pas. » – Cyrille

Chausson

Les freins à l’analyse temps réel

LES LIMITES DE LA

TECHNOLOGIE

PRESENTATION

LES LIMITES DE LA

TECHNOLOGIE


FAUT IL RETENIR


3. LES BÉNÉFICES D’HADOOP SURPASSENT-ILS LES PROBLÈMES DE LA TECHNOLOGIE?

Si Hadoop reste un sujet de discussion populaire lorsque

l’on parle d’environnements Big Data, la technologie est

aussi la cible d’une quantité de critiques. Non seulement

la technologie est assez complexe et requiert des

compétences précises, mais les professionnels IT doivent

aussi être conscients d’inconvénients comme la présences

de points de fautes uniques dans l’architecture Hadoop ou

des besoins de capacités accrus. Selon John Webster, un

des associés du cabinet Evaluator Group, les bénéfices

d’Hadoop valent bien quelques secousses. Pour LeMagIT

Webster fait l’état des bénéfices d’Hadoop et de ses

principaux problèmes.

John Webster: Mis à part le manque de compréhension

sur ce qu’est Hadoop et sur comment l’utiliser – ce qui

devrait changer assez rapidement – les utilisateurs

pointent souvent du doigt les points de faute uniques dans

Hadoop. Il y a deux types de nœuds : les NameNodes et

les DataNodes. Si le NameNode connaît une défaillance,

le cluster arrête tout simplement de fonctionner, et il

s’agit bien d’un single point of failure. Mais la fondation

Apache, qui pilote le développement de la version libre

d’Hadoop s’est attaquée au problème. Dans la dernière

version d’Hadoop, il existe désormais un mécanisme de

failover. Et puis il y a aussi des distributions

commerciales qui peuvent offrir un support HA en mode

actif/actif pour les name nodes. Les choses évoluent et le

problème est en passe d’être résolu.

Un autre point de débat est le fait qu’Hadoop réalise

systématiquement trois copies des données ingérées dans

le cluster. Vous prenez un fichier, l’écrivez sur disque et

il est alors répliqué deux fois. Ainsi vous avez au trois

copies complète de chaque donnée, une primaire et deux

fall back. Il n’y a aucun concept de Raid. Les copies sont

là en cas de défaillance de telle façon à ce que vous

puissiez chercher les données sur un autre nœud en cas de

souci. Ce niveau d’inefficacité est l’une des choses que

l’IT d’entreprise a du mal à comprendre.

L’autre problème est que pour ajouter de la capacité de

stockage à un cluster Hadoop, il faut ajouter de nouveaux

Datanodes, mais ceux-ci arrivent aussi avec un certain

nombre de CPU. Si votre cluster comporte 500 ou 1000

nœuds, il n’est pas rare que l’utilisation des CPU chute

sous la barre des 10%.Dans de très grands clusters

l’utilisation des CPU peut chuter à 4 à 5%. Les

entreprises voient cela comme du gaspillage de

ressources et se demandent s’il n’est pas possible de faire

Quels sont les principaux problèmes avec

Hadoop?

LES LIMITES DE LA

TECHNOLOGIE


PRESENTATION

LES LIMITES DE LA

TECHNOLOGIE


FAUT IL RETENIR


évoluer séparément la capacité de stockage de la capacité

CPU. Il existe des façons d’y parvenir

Webster: Elle s’est améliorée et continue à l’être et cela

va continuer. Il y a une vraie demande pour Hadoop en

entreprises et cela est du au fait que la technologie peut

faire des choses qu’un datawarehouse traditionnel ou

qu’un infrastructure de calcul ne peut réaliser. Hadoop

offre des performances élevées à grande échelle et à un

coût faible. Ce sont trois choses [la performance,

l’évolutivité et les faibles coûts] que les entreprises

apprécient ; il suffit maintenant d’éliminer les derniers

bugs. Une fois que cela sera fait, je pense que vous verrez

[Hadoop] proliférer dans les environnements de

production. Encore une fois tout dépend du type

d’applications que vous entendez utiliser sur Hadoop,

mais je pense que cela va se résoudre dans les années à

venir.

Webster: Il y a et il y a eu des alternatives Hadoop dans

la communauté : MySQL, NoSQL, NewSQL. Si vous

programmez des clusters parallèles avec ces langages et

utilisez ces bases de données, vous pouvez disposer de

capacités analytiques très évolutives comme alternatives

à Hadoop. Donc, il y a bien des alternatives sur le

marché. Ceci dit pour vous donner un exemple de la

puissance d’Hadoop, je parlais ce matin à une entreprise

financière qui a cinq divisions et chacune d’entre elles a

ses propres données sur les 32000 sociétés qu’elles

suivent. Ce que voulait cette société était de pouvoir

analyser les données dont elle disposait sur ces 32 000

compagnies pour détecter tout signe de problème tant

dans leurs données financières que dans les données

Les professionnels de l’IT sont au fait de

ces difficultés. Aussi pourquoi est-ce que

l’on entend toujours autant parler

d’Hadoop? La situation s’est-elle améliorée

depuis que la technologie est apparue?

Alors pour résumer, A quel point Hadoop

est il nécessaire dans les environnements

BigData et si vous ne souhaitez pas le

mettre en oeuvre, quelles purraient être les

alternatives ?

LA TECHNOLOGIE, SES

USAGES ET SES LIMITES

LES LIMITES DE LA

TECHNOLOGIE

PRESENTATION

LES LIMITES DE LA

TECHNOLOGIE


FAUT IL RETENIR


textuelles transmises à la FCC – en fait une masse de

données structurées, non structurées, etc. Ils ont tenté de

faire ça avec les plates-formes traditionnelles et sont

parvenus à la conclusion qu’il leur faudrait des mois.

Ils ont mis en place un cluster Hadoop, de taille plutôt

modeste, et ont découvert qu’ils pouvaient obtenir leur

résultat en environ 30 minutes sur un jeu de données

compressées de 3 To, ce qui est plutôt puissant. Passer

d’une application qui aurait requis 3 mois sur une plate-

forme standard à 30 minutes, fait toute la différence.

Cela signifie, selon les administrateurs, que l’on passe

d’une situation de type « c’est impossible » à une

situation où « c’est possible avec Hadoop ». C’est de cela

qu’il s’agit. On parle de gens qui peuvent faire des choses

qu’ils ne pouvaient tout simplement pas faire

auparavant. – Christophe Bardy

4. QUELS USAGES POUR HADOOP : UN REGARD SUR LE

STOCKAGE, LES APPLIANCES ET L’ANALYTIQUE

Hadoop peut être un outil utile dans les environnements

Big Data, mais selon John Webster, un associé senior du

cabinet Evaluator Group de Boulder, une large part des

critiques de la technologie provient d’incompréhensions

quant aux usages potentiels d’Hadoop. Dans cet article en

deux parties, Webster explique le rôle d’Hadoop en

matière de stockage de données en volume, répond à la

question de savoir si HDFS peut être utilisé comme

alternative au stockage objet et revient sur les

changements qui sont nécessaires pour accélérer

l’adoption d’Hadoop.

SearchStorage.com : Qu’est-ce qu’entendent les

entreprises quand elles parlent d’Hadoop et d'océans

de données ?

John Webster : Lorsque j’entends « Océan de

données », je pense à cet environnement massif et

évolutif où vous pouvez stocker tout un tas de choses et

les retrouver quand vous en avez besoin. C’est

typiquement le concept que poussent les vendeurs

traditionnels de systèmes de datawarehouse lorsqu’ils

font référence à Hadoop. Ce qu’ils disent est que

l’entreprise peut utiliser Hadoop comme un emplacement

où positionner de multiples types de données, structurées,

non structurées, fichiers… à partir desquels il faut

extraire du sens dans le contexte d’un datawarehouse. Les

entrepôts de données traditionnels ne sont pas très bons

pour traiter ce type de données, donc vous avez cet océan

de données dans lequel vous pouvez déverser tout un tas

d’informations, et vous pouvez l’utiliser pour alimenter

un datawarehouse existant, auquel cas, Hadoop devient

LES LIMITES DE LA

TECHNOLOGIE

PRESENTATION

LES LIMITES DE LA

TECHNOLOGIE


FAUT IL RETENIR


essentiellement un moteur d’extraction, de transformation

et de chargement. C’est un endroit où vous pouvez

déverser des données, puis en extraire ce dont vous avez

besoin pour les mettre dans le datawarehouse. Dans

certains cas, Hadoop peut aussi servir de magasins

d’archivage.

SearchStorage.com : En quoi le fait qu’Hadoop soit

bâti sur un système de gestion de fichiers est-il

important pour son rôle en matière de stockage de

données ?

John Webster : Il ne s’agit pas que du fait qu’Hadoop

est un filesystem – Pour moi, il s’agit d’un système de

gestion de fichiers distribué ; ce qui est réellement le

point différentiant. L’idée est que vous avez un système

de fichiers qui fonctionne sur un cluster de serveurs et ce

cluster peut être étendu à plusieurs milliers de nœuds. Il

s’agit d’un système de gestion de fichiers très

« élastique ». Vous pouvez l’étendre, le compresser, et il

peut couvrir un grand nombre de serveurs différents.

SearchStorage.com : Pensez-vous qu’Hadoop puisse

être utilisé comme une alternative aux « object

stores » pour les grands jeux de données ?

John Webster : Si j’étais un acheteur de systèmes de

stockage et que je cherchais un object store, par exemple

pour une application d’archivage – ce qui est l’une des

applications pour les systèmes de stockage objet -, ma

réponse serait négative. Je ne mettrai pas Hadoop dans la

catégorie des object stores. Hadoop est quelque chose que

vous pouvez programmer, alors que des équipements de

stockage typiques, comme des baies SAN ou NAS, ne

sont pas vraiment programmables , au sens où on l’entend

habituellement – c’est à dire l’aptitude à accueillir des

applications. Alors que c’est typiquement ce que l’on fait

avec Hadoop. Je conçois Hadoop comme une plate-forme

de stockage sur laquelle on fait aussi tourner des

applications, alors qu’un object store sert habituellement

des données à des applications [fonctionnant sur des

systèmes séparés].

SearchStorage.com : On entend beaucoup parler

d’Hadoop mais pensez-vous qu’il y ait assez

d’applications basées sur la plate-forme pour

accélérer son adoption ?

John Webster : Il y a deux points à considérer, ici, du

moins du point de vue de l’entreprise. La première est

qu’il y a un grand nombre de sociétés sur le marché qui

selon toute vraisemblable ont un cluster Hadoop quelque

part dans leur organisation, peut-être parce que le

LES LIMITES DE LA

TECHNOLOGIE

PRESENTATION

LES LIMITES DE LA

TECHNOLOGIE


FAUT IL RETENIR


marketing a acquis un système provenant d’une société

qui vend la technologie sous forme d’appliance « prête à

l’emploi » ou parce que quelqu’un au sein de l’IT a

assemblé quelques serveurs, téléchargé le code libre et

déployé Hadoop dans un bac à sable pour voir de quoi il

s’agit exactement. Pourquoi parle-t-on autant d’Hadoop ?

Que peut-on faire avec ? Les gens du marketing qui font

du « shadow IT » savent pertinemment quoi en faire car

ils utilisent déjà activement la technologie. D’un autre

côté, il n’est pas rare de trouver Hadoop au sein de bacs à

sable et de voir l’IT « jouer » avec la technologie sans

vraiment voir d’application pratique pour l’instant, sans

vraiment savoir qu’en faire ou comment le programmer.

Il s’agit typiquement des deux scénarios que l’on

rencontre dans les environnements d’entreprise.

Dans le cas de l’IT, je pense que les équipes

informatiques l’utilisent pour tenter de déterminer quel

type d’applications peuvent fonctionner sur Hadoop. Ils

sont peut-être parvenus à la conclusion qu’ils vont devoir

développer ces applications eux-mêmes, ce qui est

fréquemment le cas. Mais il y a aussi déjà beaucoup

d’applications qui apparaissent et qui vont permettre à

l’entreprise d’affirmer plus simplement : « OK, voici les

scénarios d’usage d’Hadoop ; nous n’avons pas besoin

d’une armée de data scientist à 300 000$ par an pour tirer

profit de cette plate-forme ». Nous ne sommes plus loin

d’un point d’inflexion où l’entreprise devient consciente

qu’il y a vraiment des applications à valeur ajoutée sur le

marché qui permettent de faire des choses avec Hadoop

et qui produisent des résultats jusqu’alors inconnus.

Certaines des informations que les entreprises

parviennent à extraire d’Hadoop sont tout simplement

stupéfiantes. – Christophe Bardy

5. EFFET DU HYPE BIG DATA : LES ENVIRONNEMENTS

HADOOP NE SONT PAS INTÉGRÉS AU SI

Le hype autour du Big Data, très prononcé en 2012, a

causé une forme de désordre, presqu’infantile, dans

l’organisation des entreprises. Des environnements

Hadoop en silo, un excès d’expérimentation, une

exagération de l’importance des data scientists sont les

problèmes de jeunesse pointés du doigt par certains

experts, qui proposent que les entreprises gèrent leurs

données comme un actif à part entière.

Steve Shelton, qui dirige le département Data Services au

sein du cabinet de conseil Detica, une division de BAE

Systems, affirme que les silos Hadoop sont devenus une

composante des systèmes des entreprises, à la fois du

secteur privé et public. « Les entreprises se sont

focalisées sur cette nouvelle chose appelée Big Data et

LES LIMITES DE LA

TECHNOLOGIE

PRESENTATION

LES LIMITES DE LA

TECHNOLOGIE


FAUT IL RETENIR


ont essayé de l’isoler (en 2011, comme en 2012). »

Cet effort s’est surtout concentré sur les types de données

qui n’étaient pas traditionnelles. Poussé par les

fournisseurs de technologies. La valeur métier des

données se révèle pourtant davantage lorsqu’on considère

qu’elles font partie d’un ensemble, qu’elles soient « big »

ou pas, ajoute-t-il.

Les technologies Big Data ont-elles distrait les

entreprises ? « Je crois que cela a fait évoluer les choses

en terme d’apprentissage, mais les entreprises font

aujourd’hui machine arrière. Lorsqu’on parle de

gouvernance de l’information, vous devez considérer les

données dans leur ensemble », soutient Shelton.

Selon lui, Detica a entendu des réclamations, des plaintes

à propos de silos Hadoop, et ceux-là étaient l’oeuvre de

personnes qui ont dépassé les phases de Proof-of-concept,

mis rapidement en place un cluster Hadoop et ont monté

une équipe. Mais une plate-forme Hadoop nécessite des

dépenses supplémentaires en terme de gestion et

d’intégration avec les processus existants de l’entreprise.

« Il ne s’agit pas d’une perte de temps et d’argent. Il

s’agit juste d’une étape. Et ce n’est pas un défi

insurmontable. La prochaine étape est d’intégrer ces

silos, mais aujourd’hui, la réflexion est encore immature

comparé à la technologie en elle-même », souligne

encore Shelton.

Debra Logan, une analyste reconnue, spécialisée dans

l’information management au sein de Gartner, soutient de

son côté qu’il existe une exagération cohérente avec la

rhétorique du Big Data. « C’est le numéro deux des

termes le plus recherchés sur Gartner.com, après le Magic

Quadrant, mais selon moi, d’après les entretiens menés en

face à face avec les clients, il apparait que 97% des

entreprises sont uniquement dans une phase

exploratoire », affirme-t-elle. « Nous avons certes des

clients dans les médias, qui gèrent de la vidéo, par

exemple. Mais, même les banques ne gèrent pas vraiment

des Big Data. Leurs données sont très organisées.

L’analytique pour la détection de fraudes, par exemple,

repose sur des méthodes qui n’ont pas beaucoup

changé », commente-t-elle. Bien que, finalement, Hadoop

soit intéressant d’un point de vue infrastructure sous-

jacente, ajoute-t-elle.

Les problèmes de jeunesse du Big Data

LES LIMITES DE LA

TECHNOLOGIE

http://gartner.com/

PRESENTATION

LES LIMITES DE LA

TECHNOLOGIE


FAUT IL RETENIR


Logan affirme que l’emballement actuel du marché,

autour de la gestion de l’information, représente une

« bonne opportunité de développement de carrière », et

confirme qu’il existe bien un manque en terme de

compétences et d’expertises mathématiques. Les clients

de Gartner sont partis chercher de l’expertise autour de la

donnée dans la communauté de fournisseurs, mais ils ne

l’ont pas trouvée », affirme-t-elle.

Il y a eu certes une explosion des postes et fonctions liée

à la gestion de l’information, démontrant ainsi que

presque personne jusqu’alors ne contrôlait la gestion des

données comme un composant métier dans les

entreprises.

Gartner a parlé à près de 50 CDO (Chief Data Officer), la

plupart en Amérique du nord et au Royaume-Uni et la

plupart employés par des sociétés des services financiers,

souvent avec une forte exigence en terme de conformité,

et formés à extraire de la valeur des données.

Bien que les DSI affirment que le recrutement de data

scientists soit lié au hype qui entoure le Big Data,

poursuit-elle, ils reconnaissent toutefois qu’il existe bien

un actif dans l’entreprise - la donnée - qui n’est

aujourd’hui justement pas géré comme un actif. – La

rédaction

LES LIMITES DE LA

TECHNOLOGIE

PRESENTATION

LES LIMITES DE LA

TECHNOLOGIE


FAUT IL RETENIR


1. COMMENT FACEBOOK A DEPLOYE RAID SUR SES CLUSTERS HADOOP

L’année dernière, Facebook a déployé la technologie

RAID dans des larges clusters HDFS (Hadoop

Distributed File System), afin d’augmenter ses capacités

à plusieurs dizaines de petabytes, tout en minimisant la

réplication de données. L’équipe d’ingénieurs en charge

du projet a dû faire face à de nombreuses difficultés

durant l’ensemble du process, notamment au niveau de la

corruption des données et des contraintes

d’implémentation de RAID au sein de répertoires

particulièrement volumineux.

Le réseau social a également fait le choix d’implémenter

cette technologie qui comprend le mécanisme dit de

« Erasure codes » dans HDFS afin de réduire le niveau de

réplication de données dans HDFS.

RAID (Redundant Array of Independent disks)est un

moyen pour stocker les mêmes données dans différents

espaces de stockage (redondants), sur plusieurs disques

durs. HDFS est quant à lui le système de stockage

primaire utilisé par les applications reposant sur Hadoop.

Il fournit un accès haute performance aux données des

clusters Hadoop et est ainsi devenu un outil clé des

entreprises dans leur gestion des Big Data et de leurs

opérations analytiques.

Dans HDFS, un fichier est répliqué 3 fois, ce qui

provoque beaucoup de gâchis en matière d’espace de

stockage, indique l’équipe d’ingénieurs de Facebook. La

technologie RAID HDFS a permis au réseau social de

minimiser la réplication de données et réduire par

conséquent ce gâchis.

« Avec les déploiements de RAID sur nos clusters HDFS,

les niveaux de réplication globaux ont pu être

suffisamment abaissés pour représenter des dizaines de

petabytes de capacités alors économisés à la fin 2013 », a

indiqué cette même équipe dans un billet de blog.

Mais évidemment, ces opérations de déploiements de

RAID dans d’imposants clusters de plusieurs centaines de

petabytes de données ne sont pas sans difficultés. « Nous

souhaitions partager les enseignements appris lors du

projet », affirment les ingénieurs de Facebook.

Les enseignements

Retour d’expérience: que faut-il retenir

RETOUR D’

EXPÉRIENCE: QUE

FAUT-IL RETENIR

https://code.facebook.com/posts/536638663113101/saving-capacity-with-hdfs-raid/

PRESENTATION

LES LIMITES DE LA

TECHNOLOGIE


FAUT IL RETENIR


Lorsque Facebook a déployé RAID en production, il est

apparu que l’espace alors économisé était moins

important que ce qui avait été prévu. « Après quelques

recherches, nous avons décelé un problème dans RAID,

que nous avons baptisé le « problème du petit fichier »,

expliquent-ils.

L’équipe d’ingénieurs a ainsi établi que les fichiers avec

10 blocs logiques offraient la meilleure opportunité pour

économiser de l’espace. Plus le nombre de blocs est petit,

plus la capacité à pouvoir économiser de l’espace est

réduite. Si un fichier comporte moins de 3 blocs, RAID

ne parvient pas à économiser de l’espace. Selon les

résultats de recherche de l’équipe, plus de 50% des

fichiers dans les clusters en production étaient de taille

réduite (moins de 3 blocs).

Pour résoudre ce problème, l’équipe IT a regroupé les

blocs. « Nous avons développé un répertoire RAID pour

cibler ce problème de petit fichier, en nous basant sur une

unique observation : dans Hive, les fichiers dans le

répertoire enfant ne sont que rarement modifiés après leur

création. Ainsi, pourquoi ne pas traiter ce répertoire

comme un fichier, avec plusieurs blocs, puis y appliquer

RAID ? »

Un autre problème identifié par l’équipe de Facebook est

celui de la corruption des données, occasionné par un bug

de la reconstruction logique de RAID. Pour empêcher

cela, les ingénieurs ont calculé et stocké les checksums

CRC des blocs dans MySQL lors du déploiement de

RAID pour qu’à chaque fois que le système reconstruit

un bloc défaillant, le checksum soit comparé avec celui

dans MySQL pour vérifier la justesse des données, a

expliqué l’équipe de Facebook.

Autre difficulté, implémenter RAID dans un répertoire

avec plus 10 000 fichiers aurait nécessité une journée

entière pour être finalisée. « Si un dysfonctionnement

intervient lors de l’opération RAID, l’ensemble du

processus échoue, et le temps CPU utilisé jusqu’alors est

gâché », affirment les ingénieurs. La solution ?

« Paralléliser RAID », via un mapper sur les jobs

Mapreduce, où chaque mapper prend en compte

seulement une partie du répertoire et y applique RAID.

« Ainsi, les dysfonctionnements peuvent être encaissés

rien qu’en retentant l’opération sur les mappers impactés.

Empêcher la cooruption de données

RETOUR D’

EXPÉRIENCE: QUE

FAUT-IL RETENIR

PRESENTATION

LES LIMITES DE LA

TECHNOLOGIE


FAUT IL RETENIR


Avec MapReduce, nous sommes capables de mettre en

RAID un répertoire important en quelques heures »,

soutient encore l’équipe.

Actuellement, chez Facebook, la technologie RAID sur

HDFS est déployée sur une couche séparée, au-dessus de

HDFS. Mais cela pose encore quelques problèmes aux

ingénieurs : le gaspillage de bande passante et d’ IO

disque. Autre souci identifié : lorsque des fichiers sont

répliqués d’un cluster à l’autre, il arrive parfois que les

PARfiles ne soient pas déplacés avec leurs fichiers

sources. Cela débouche régulièrement sur des pertes de

données. Pour contrer cela, les ingénieurs de Facebook

travaillent à ce que le support de RAID soit intégré

nativement à HDFS. « Un fichier pourra être RAIDé

lorsqu’il est créé la première fois sur HDFS, économisant

ainsi des IO disques. »

« Une fois déployé, le NameNode conserve les

informations du fichier et programme le block-fixing

quand les blocs RAID sont manquants. Le DataNode a la

charge de la reconstruction des blocs. « Cela ôte la

dépendance de HDFS RAID par rapport à MapReduce »,

concluent-ils. – Cyrille Chausson

2. LE SITE DE JEUX EN LIGNE KING.COM PASSE A

L’ANALYTIQUE BIG DATA AVEC HADOOP

Le site de jeu en ligne gratuit, King.com, basé en Suède

et présent en France, a revu son architecture de données

afin d’adresser la problématique de gestion des données

en volume, en provenance pour la plus grande partie de

Facebook.

Fondée en 2003, lasociété se présente comme le plus

important site de jeux occasionnels et sociaux dans le

monde, proposant notamment des tournois par catégories

(puzzle, stratégie, action, cartes ainsi que jeux sportifs).

Ces jeux, qui comprennent Bubble Witch Saga et Candy

Crush, ont attiré plus de 60 millions d’utilisateurs

abonnés, jouant, en tout, plus de 5 milliards de fois par

mois.

King.com a plus de 150 jeux dans son catalogue, tous

gratuits. Il génère des revenus via la vente de produits et

services dits « in-game », comme des vies

supplémentaires ou des boosters, ou encore via la

publicité.

RETOUR D’

EXPÉRIENCE: QUE

FAUT-IL RETENIR

http://king.com/

http://king.com/

PRESENTATION

LES LIMITES DE LA

TECHNOLOGIE


FAUT IL RETENIR


Mats-Olov Eriksson, directeur de l’entrepôt de données

du groupe, affirme avoir travaillé sans technologie de Big

Data jusqu’alors, mais, face à l’augmentation du volume

de données générées par les jeux sur Facebook, la base de

données MySQL s’est retrouvée trop étriquée. Elle était

performante pour un million d’utilisateurs par jour mais

King.com doit gérer un flot de visiteurs 10 fois plus

important, à la fin 2012.

Et c’était sans compter avec le besoin de rapidité. « Si

vous disposez d’un environnement de production

reposant sur MySQL, vous devez attendre trop

longtemps. Même ajouter une simple colonne prend du

temps », ajoute-t-il.

Eriksson dispose d’un solide background en analytique et

en architecture de données dans des environnements en

ligne, pour les secteurs du marketing numérique ou des

jeux en lige. Il est responsable du stockage et du

traitement des données pour King.com ainsi que de la

maintenance du système, avec pour mission d’optimiser

l’analytique. Son équipe de 6 développeurs, qui devrait

s’étoffer de 5 autres membres dans les mois qui arrivent,

développe actuellement un entrepôt de données Hadoop.

Eriksson se définit lui-même comme un défenseur de

l’Open Source et préfère une approche de l’entrepôt de

données liée aux méta-donnée. Selon lui, il s’agit

«d’enregistrer des données dans une méthode moins

structurée afin de pouvoir tracer davantage d’interactions

utilisateurs (de toute forme) avec le jeux. »

Après plusieurs expérimentations, l’équipe a déployé une

distribution Cloudera en 2012. La société affirme que

cela lui permet d’avoir de la visibilité sur les modèles

d’usages des jeux et sur les préférences des joueurs, ainsi

que sur leurs comportements (lorsqu’ils sont par exemple

coincés à un niveau spécifique). « Nous observons les

taux d’échec par niveau, et quels niveaux sont les plus

difficiles - mais de façon positive », commente-t-il.

Développer un entrepôt de données

Hadoop

Une approche agil de l’analytique

RETOUR D’

EXPÉRIENCE: QUE

FAUT-IL RETENIR

http://king.com/

http://king.com/

PRESENTATION

LES LIMITES DE LA

TECHNOLOGIE


FAUT IL RETENIR


L’équipe dédiée aux questions analytiques utilise une

grande variété d’outils. QlikView comme outil de

reporting, Apache Hive pour effectuer les requêtes sur les

données et R le langage de programmation Open Source

pour les statistiques. Elle s’appuie également sur des

applications statistiques comme celle des SAAS ou SPSS

d’IBM. « Il existe une valeur évidente à permettre aux

personnes d’expérimenter. Sur le court terme, cela n’est

certes pas très efficace, mais si vous mettez en place cet

environnement ouvert et créatif, il est plus facile d’attirer

de vrais talents, qui seront alors capables de lui donner de

la valeur. Ils peuvent tester de nouveaux outils, et cela

contribue à notre réussite », soutient Eriksson.

« Cloudera est une partie de l’ensemble qui nous offre un

avantage concurrentiel. Nous disposons d’un système très

agile lorsqu’il s’agit de suivre nos utilisateurs. Nous

parvenons à attirer les joueurs grâce à des dépenses en

marketing, nous devons donc connaître le retour sur

investissement en termes de marketing. Nous devons

recueillir tout ce que nous pouvons. Sans cela, nous

n’aurions pas l’ambition d’investir et du coup, la

croissance ralentirait. Nous serions comme aveugles »,

ajoute-t-il.

Il prévoit également d’utiliser la technologie de requêtes

en temps réel de Cloudera, Impala, d’ici à la fin de

l’année, mais reste encore sceptique quant à cette notion

de temps réel. « Je ne suis pas un grand fan de ce terme,

mais toutefois, nous allons y gagner à alimenter notre

entrepôt de données en quasi temps réel. D’un point de

vue utilisateur, le gain sera également notable. Si dans

une autre mesure, un problème est détecté sur l'une des

fonctions d’un jeu, nous pouvons nous adapter plus

rapidement ».

Il reste également très prudent quant à l'engouement qui

entoure le mouvement « data science ». « Il est dommage

que tout le monde ne parle que de data science, comme

s’il ne d’agissait que de la seule partie « sexy » du travail

sur les données. La maintenance est tout aussi

intéressante mais est également plus importante - c’est là

que tout se joue », souligne-t-il. « Dans les secteurs très

consommateurs de données, nous avons besoin de

davantage d’architectes qui s’intéressent à faciliter la vie

d’autres personnes. Aujourd’hui, tout le monde veut

devenir statisticien. Je rêverai de voir des personnes

davantage intéressées par cette approche

« facilitateur ». » – Cyrille Chausson

RETOUR D’

EXPÉRIENCE: QUE

FAUT-IL RETENIR

PRESENTATION

LES LIMITES DE LA

TECHNOLOGIE


FAUT IL RETENIR


3. AIRBUS PASSE AU BIG DATA AVEC ORACLE POUR

L’ANALYSE DE SES ESSAIS EN VOL

La conception d’un avion est un processus complexe. Un

processus marqué, dans sa phase d’essais en vol, par une

succession de tests à traiter dans des délais très courts

(souvent une nuit) et une période restreinte (Time to

Market oblige) sans – bien sûr - jamais sacrifier la

sécurité ni la qualité.

Confronté à un « plafonnement de [ses] moyens actuels »

pour traiter des masses d’informations qui ont déjà

grandement augmenté depuis 5 ans, Airbus a décidé

l’année dernière de se pencher sur les outils Big Data. Le

but étant de se préparer à une nouvelle multiplication

annoncée des données, générées notamment par des

systèmes embarquées de plus en plus sophistiqués.

Sur la scène du Salon Big Data de Paris, Jean-Marc

Wattecant, le « Head of Data Processing, Flight and

Integration Test Centre » de l’avionneur, est revenu sur

ce projet ô combien sensible. Car « on ne parle pas ici

d’avions déjà livrés aux compagnies, mais de prototypes

que l’on est en train de développer et de tester, de pousser

aux limites pour montrer aux autorités de régulation que

l’on peut certifier un avion ».

Concrètement, lors de ces essais en vol, Jean-Marc

Wattecant et ses équipes récupèrent un ensemble

d’informations issues des bus avioniques standards et de

capteurs supplémentaires posés sur le prototype. « Ces

capteurs ont des rôles différents selon ce que l’on veut

observer. Cela peut aller de la température des moteurs à

des contraintes de charge sur la voilure ou sur le train

d’atterrissage », précise l’expert. Pour la campagne en

cours de l’A350, Airbus analyse par exemple jusqu’à 600

000 paramètres. Et certains capteurs émettent plusieurs

points par seconde. Résultat, « on arrive à avoir des

journées à plus de 2 To ».

Des essais qui génèrent aujourd’hui 2 To

des données par vol, et beaucoup plus

demain

RETOUR D’

EXPÉRIENCE: QUE

FAUT-IL RETENIR

PRESENTATION

LES LIMITES DE LA

TECHNOLOGIE


FAUT IL RETENIR


Cette volumétrie est, en plus, en constante évolution.

« En effet, nous faisons des avions de plus en plus

complexes, dans le sens où nous cherchons toujours plus

de performances et de sécurité, explique le responsable

d’Airbus au MagIT. Il faut donc des calculateurs qui

permettent de gérer ces évolutions. C’est le même

phénomène que votre voiture : pour avoir une meilleure

consommation, vous avez un moteur optimisé avec des

calculateurs qui gère l’injection. La philosophie ici est la

même. On augmente la qualité intrinsèque du produit,

mais il faut des moyens pour le piloter. Et c’est ce que

nous contrôlons ».

Toutes ces informations sont enregistrées pendant le vol,

sous la supervision d’un ingénieur navigant d’essai en

charge de vérifier que les conditions de chaque test sont

bien respectées (vitesse, palier, angle, etc.). Puis de retour

au sol, le support de stockage est déchargé sur les

serveurs d’Airbus pour que son contenu soit analysé et

archivé (les données brutes devant aussi être fournies aux

autorités).

Responsable des outils IT pour ces analyses, Jean-Marc

Wattecant joue les modestes. Pour lui, la volumétrie qu’il

a à gérer n’aurait rien à voir avec les géants du web

comme Google ou Facebook. N’empêche. A titre de

comparaison, lors d’un récent colloque organisé à la

Maison des Mines de Paris, des experts et intégrateurs

estimaient que la volumétrie classique d’un projet BI

avoisinait le Téra de données. Dans une entreprise du

CAC 40, ce chiffre monte régulièrement entre 5 et 10 To.

Et pour les gros projets BI, les volumes atteignent les 40

To. En clair, dans le contexte de ses essais en vol, Airbus

traite tous les 20 jours des volumes de données

équivalents à la fourchette haute des projets BI

multinationaux.

Et encore, ces essais en vol sont le bout d’une chaîne de

tests. « C’est vraiment la phase finale du développement

de l’avion. Ils permettent à la fois de valider ce que l’on a

vu par d’autres moyens d’essais et de valider ce que l’on

ne peut pas certifier autrement, confirme Jean-Marc

Wattecant. En amont nous procédons à de nombreux tests

: numériques, de soufflerie, en labos, etc. ». Des étapes

qui, elles aussi, génèrent des données à « pérenniser »

pour pouvoir les soumettre au régulateur.

Des problèmes d’accès simultanés pour les

ingénieurs, mais pas de « Go » pour le vol

suivant sans analyse

RETOUR D’

EXPÉRIENCE: QUE

FAUT-IL RETENIR

PRESENTATION

LES LIMITES DE LA

TECHNOLOGIE


FAUT IL RETENIR


Une fois les téraoctets générés en vol mis sur les serveurs

au sol, des ingénieurs aéronautiques entrent en scène pour

en tirer la substantifique moelle. « On a en moyenne 600

utilisateurs sur ces systèmes », évalue Jean-Marc

Wattecant. Avec, à la clef, un phénomène

d’embouteillage puisqu’une grosse partie des ingénieurs

est surtout intéressée par les vols qui ont eu lieu la veille

ou la semaine précédente. « On observe un réel problème

d’accès concurrents qui parfois nous crée des problèmes

de performances sur les moyens actuels », diagnostique le

responsable.

Un problème d’autant plus critique que les délais sont

serrés. Très serrés. « On n’a pas vraiment le choix de

prendre du retard […] Pour donner le « go » sur le vol du

lendemain, il faut être capable d’avoir fait une première

analyse des données du jour pour voir s’il n’y a pas de

risques ou de problèmes majeurs pour ne pas mettre en

danger l’avion (c’est quand même la première priorité !)

et pour vérifier que les tests étaient conformes à ce qui

était prévu », explique l’expert sur la scène du Salon.

Délais tendus, avions sophistiqués, données multipliées,

embouteillages. La situation n’est pas simple pour l’IT.

« Et on voit bien que ce n’est pas fini », pronostique-t-il,

évoquant en plus le lancement de nouveaux avions,

notamment « le programme NEO qui va rentrer en

période de « flight test » en fin d’année ».

Comme il était « déjà difficile avec les moyens standards

de répondre à l’attente », une action s’imposait. « Nous

avons des avions de plus en plus complexes et nous

n’avons pas nécessairement plus de temps. Donc il faut

trouver les moyens de traiter ce paradoxe », atteste le

représentant d’Airbus. D’autant plus qu’il ne s’agit pas

d’absorber un pic d’activité ponctuel et intense, mais bien

de s’adapter à une situation durable. « On n’est pas en

train de parler d’une quinzaine un peu difficile où on fait

travailler les équipes de manière un peu soutenue en se

disant que ça va passer. Ce n’est pas un pic… c’est un

plateau ».

Pour prendre le relai de l’existant et être ainsi capable

« de certifier les avions sur ce rythme-là pour être

présents sur le marché », Jean-Marc Wattecant décide

donc d’étudier des solutions réputées pour leurs fortes

capacités de traitement et de parallèlisation des process :

les outils Big Data.

RETOUR D’

EXPÉRIENCE: QUE

FAUT-IL RETENIR

PRESENTATION

LES LIMITES DE LA

TECHNOLOGIE


FAUT IL RETENIR


Un choix qui, quand on s’appelle Airbus, ne se fait

cependant pas à la légère. Le Big Data n’a pas été conçu

ni défini pour ce genre d’industrie ultra-critique. Un point

crucial que confirme l’expert: « ces technos ne sont pas

disponibles dans nos standards Airbus […] Il a donc fallu

faire un parcours pour voir si cela avait du sens ».

Ce parcours au long cours d’Airbus débute par un RFI

(« Request For Information »), nom maison pour « Proof

of Concept » (PoC, en français « Preuve de Faisabilité »),

« une manière d’évaluer [ces solutions] en grandeur

nature ». Quatre acteurs majeurs (que l’avionneur ne

souhaite pas nommer) répondent à la demande. Ils se

voient mis à l’épreuve par Jean-Marc Wattecant qui leur

demande de faire un démonstrateur qui traite les deux

problèmes majeurs du métier : l’injection massive de

données et la lecture concurrente avec beaucoup

d’utilisateurs.

« On a pris des données d’un A380 dont nous disposions

déjà. Ensuite on a demandé aux sociétés consultées de

faire un chargement massif de ces données et de faire une

extrapolation par rapport à nos besoins », nous détaille-t-

il. « Après, […] on leur a donné notre soft maison […]

pour simuler une lecture et on leur a dit : « faites nous un

test avec un utilisateur, 10, 20, 30 » pour tester la

stabilité, quelle que soit la charge. ». Plusieurs éléments

ressortent de cette mise en situation riche en

enseignements. Le premier est que le Big Data est

aujourd’hui mature. « La technologie n’est plus au stade

de la recherche. Nous, nous ne sommes pas dans une

logique de labo : à la fin du projet, on veut une solution

industrielle. Donc parler de quelque chose

d’opérationnelle, c’était important ».

Mature donc. Et adapté au cas d’usage prévu. « On a vu

une stabilité dans la performance, même si on a beaucoup

d’utilisateurs en simultanée, ce qui est aujourd’hui un des

points faibles de notre façon de travailler ».

Autre avantage, le Big Data permettrait de décloisonner

les données et de concevoir de « nouveaux services ».

« Actuellement, notre environnement est orienté vol par

vol. Cela rend difficile les analyses de tendances au

travers de plusieurs vols ou de plusieurs avions d’un

même programme », regrette Jean-Marc Wattecant. Mais

Un « Proof of Concept » riche

d’enseignements pour tester le Big Data en

contexte industriel

RETOUR D’

EXPÉRIENCE: QUE

FAUT-IL RETENIR

PRESENTATION

LES LIMITES DE LA

TECHNOLOGIE


FAUT IL RETENIR


avec les outils fournis « plus ou moins en standard » avec

tous les produits Big Data, « il y a clairement de quoi

faire des analyses transverses ». Aux métiers de trouver

lesquelles.

Bref, le RFI fait passer tous les voyants au vert pour

adopter en interne ces technologies à base d’Hadoop et de

MapReduce (« ils ont tous répondu avec la même

approche software, il n’y a pas eu d’exception là-

dessus »).

Oui mais voilà, entre un PoC et un déploiement industriel

critique, il y a quelques escales à ne pas oublier. Comme

le respect du calendrier de déploiement et la continuité de

l’activité des tests. Le système à choisir devant être

opérationnel pour les premiers essais en vol de l’A320

NEO (un moyen-courrier avec une nouvelle motorisation

plus économe), il n’était pas question pour Jean-Marc

Wattecant de rentrer dans un projet de plusieurs années.

Conséquence, Airbus a cherché - en plus de la

performance pure (traitement et accès simultanées aux

données) - une solution progressive qui permette dans un

premier temps de faire tourner son applicatif d’analyse

actuel, puis dans un deuxième temps - et seulement dans

un deuxième temps - d’envisager les « nouveaux

usages ». « On voulait y aller « step by step » sans que ce

soit un Big Bang, souligne bien le décideur IT. C’était

clef, sinon on n’était pas capable d’avoir quelque chose

de raisonnablement faisable pour la fin de cette année ».

Autre point discriminant, « le design ». Comprendre : la

modélisation des données en fonction de l’usage final.

« Cela a beau être des systèmes Big Data avec de la

puissance de calcul, si le design n’est pas correctement

fait, on a une performance qui n’apporte pas la valeur

attendue », avertit Jean-Marc Wattecant.

A l’issue de cette sélection, Airbus penche pour la Big

Data Appliance d’Oracle. L’expert IT de l’avionneur

avance trois raisons principales pour ce choix. La

capacité de transition par étapes planifiées et prévisibles.

Pas question de rentrer dans un

déploiement long et coûteux

« Big Data, ça ne veut pas dire magie»

RETOUR D’

EXPÉRIENCE: QUE

FAUT-IL RETENIR

PRESENTATION

LES LIMITES DE LA

TECHNOLOGIE


FAUT IL RETENIR


Le prix (« il y a vraiment eu un différentiel là-dessus »).

Et l’intégration entre Hardware et Software (« quand on a

peu de temps devant nous, avoir des solutions déjà

intégrées est une manière de gérer notre risque planning –

le plus fort sur ce projet-là »).

Si les premiers ROI ne sont attendus qu’en 2015, Jean-

Marc Wattecant prévient néanmoins déjà : « Big Data, ça

ne veut pas dire magie ». Surtout dans un milieu

aéronautique où les technologies – encore jeunes –

demandent à être adaptées et mises à l’épreuve. « Rien

d’impossible, mais ça doit être bâti ». En sens inverse, les

équipes d’Airbus doivent de leur côté se familiariser avec

ces nouveautés pour en assurer la pérennité. « Il n’est pas

question de développer une solution industrielle et de ne

pas être capable de la supporter à la fin », insiste le

responsable.

Pas de magie à attendre, donc, d’autant que les retombées

doivent être bien contextualisées. De son expérience, et

sous réserve d’optimisations futures, l’expert d’Airbus

constate en effet que « la valeur du Big Data a vraiment

du sens quand on commence à avoir beaucoup d’accès

simultanés à la donnée où les systèmes classiques ont

rapidement des goulots d’étranglement ». Avec moins

d’utilisateurs, les bénéfices (en tout cas ceux du PoC)

sont moins tangibles.

Reste que le choix d’Oracle, un acteur renommé mais

américain, pour une entreprise européenne aussi

emblématique et sensible qu’Airbus, dans un

environnement IT où les révélations sur l’espionnage

industrielle et les backdoors s’enchaînent autour de

PRISM, pourrait poser question.

Pragmatique, Jean-Marc Wattecant ne balaye pas la

problématique d’un revers de main quand on lui pose la

question. Il se montre certes très confiant (« nous avons

plein de produits américains, notamment du Microsoft »).

Mais également prévoyant : « tous les serveurs sont

hébergés chez Airbus. Alors certes, ce sont des produits

Oracle, mais ils sont intégrés dans nos datacenters qui

sont surveillés et contrôlés par nos soins ».

A moins de 8 mois de la mise en service du nouveau

système, les équipes d’Airbus, d’Oracle et du cabinet de

conseils Sopra (qui a accompagné le projet) travaillent

L’A320 New Engine Option en approche

avec l’Appliance d’Oracle (en attendant

l’A30X)

RETOUR D’

EXPÉRIENCE: QUE

FAUT-IL RETENIR

PRESENTATION

LES LIMITES DE LA

TECHNOLOGIE


FAUT IL RETENIR


sur le design des données et sur l’intégration à

l’environnement existant du constructeur. « On sait que

c’est une phase critique, donc on s’est donné trois mois ».

En revanche, la partie implémentation des couches de

données ne devrait, elle, pas poser de gros problèmes.

En tout état de cause, Jean-Marc Wattecant reste sur son

objectif initial : avoir un outil Big Data opérationnel pour

les 3 000 d’essais en vol des huit prototypes du

programme NEO. Si tout se passe bien, cette version re-

motorisée de l’A320 - avec des réacteurs plus gros à la

meilleure efficience énergétique - devrait décoller dans

les aéroports du monde entier au quatrième trimestre

2015. – Philippe Ducellier

4. LES BÉNÉFICES D’HADOOP SURPASSENT-ILS LES

PROBLÈMES DE LA TECHNOLOGIE?

Si Hadoop reste un sujet de discussion populaire lorsque

l’on parle d’environnements Big Data, la technologie est

aussi la cible d’une quantité de critiques. Non seulement

la technologie est assez complexe et requiert des

compétences précises, mais les professionnels IT doivent

aussi être conscients d’inconvénients comme la présences

de points de fautes uniques dans l’architecture Hadoop ou

des besoins de capacités accrus. Selon John Webster, un

des associés du cabinet Evaluator Group, les bénéfices

d’Hadoop valent bien quelques secousses. Pour LeMagIT

Webster fait l’état des bénéfices d’Hadoop et de ses

principaux problèmes.

John Webster: Mis à part le manque de compréhension

sur ce qu’est Hadoop et sur comment l’utiliser – ce qui

devrait changer assez rapidement – les utilisateurs

pointent souvent du doigt les points de faute uniques dans

Hadoop. Il y a deux types de nœuds : les NameNodes et

les DataNodes. Si le NameNode connaît une défaillance,

le cluster arrête tout simplement de fonctionner, et il

s’agit bien d’un single point of failure. Mais la fondation

Apache, qui pilote le développement de la version libre

d’Hadoop s’est attaquée au problème. Dans la dernière

version d’Hadoop, il existe désormais un mécanisme de

failover. Et puis il y a aussi des distributions

commerciales qui peuvent offrir un support HA en mode

actif/actif pour les name nodes. Les choses évoluent et le

problème est en passe d’être résolu.

Quels sont les principaux problèmes avec

Hadoop?

RETOUR D’

EXPÉRIENCE: QUE

FAUT-IL RETENIR


PRESENTATION

LES LIMITES DE LA

TECHNOLOGIE


FAUT IL RETENIR


Un autre point de débat est le fait qu’Hadoop réalise

systématiquement trois copies des données ingérées dans

le cluster. Vous prenez un fichier, l’écrivez sur disque et

il est alors répliqué deux fois. Ainsi vous avez au trois

copies complète de chaque donnée, une primaire et deux

fall back. Il n’y a aucun concept de Raid. Les copies sont

là en cas de défaillance de telle façon à ce que vous

puissiez chercher les données sur un autre nœud en cas de

souci. Ce niveau d’inefficacité est l’une des choses que

l’IT d’entreprise a du mal à comprendre.

L’autre problème est que pour ajouter de la capacité de

stockage à un cluster Hadoop, il faut ajouter de nouveaux

Datanodes, mais ceux-ci arrivent aussi avec un certain

nombre de CPU. Si votre cluster comporte 500 ou 1000

nœuds, il n’est pas rare que l’utilisation des CPU chute

sous la barre des 10%.Dans de très grands clusters

l’utilisation des CPU peut chuter à 4 à 5%. Les

entreprises voient cela comme du gaspillage de

ressources et se demandent s’il n’est pas possible de faire

évoluer séparément la capacité de stockage de la capacité

CPU. Il existe des façons d’y parvenir

Webster: Elle s’est améliorée et continue à l’être et cela

va continuer. Il y a une vraie demande pour Hadoop en

entreprises et cela est du au fait que la technologie peut

faire des choses qu’un datawarehouse traditionnel ou

qu’un infrastructure de calcul ne peut réaliser. Hadoop

offre des performances élevées à grande échelle et à un

coût faible. Ce sont trois choses [la performance,

l’évolutivité et les faibles coûts] que les entreprises

apprécient ; il suffit maintenant d’éliminer les derniers

bugs. Une fois que cela sera fait, je pense que vous verrez

[Hadoop] proliférer dans les environnements de

production. Encore une fois tout dépend du type

d’applications que vous entendez utiliser sur Hadoop,

mais je pense que cela va se résoudre dans les années à

venir.

Les professionnels de l’IT sont au fait de

ces difficultés. Aussi pourquoi est-ce que

l’on entend toujours autant parler

d’Hadoop? La situation s’est-elle améliorée

depuis que la technologie est apparue?

RETOUR D’ EXPÉRIENCE:

QUE FAUT-IL RETENIR

RETOUR D’

EXPÉRIENCE: QUE

FAUT-IL RETENIR

PRESENTATION

LES LIMITES DE LA

TECHNOLOGIE


FAUT IL RETENIR


Webster: Il y a et il y a eu des alternatives Hadoop dans

la communauté : MySQL, NoSQL, NewSQL. Si vous

programmez des clusters parallèles avec ces langages et

utilisez ces bases de données, vous pouvez disposer de

capacités analytiques très évolutives comme alternatives

à Hadoop. Donc, il y a bien des alternatives sur le

marché. Ceci dit pour vous donner un exemple de la

puissance d’Hadoop, je parlais ce matin à une entreprise

financière qui a cinq divisions et chacune d’entre elles a

ses propres données sur les 32000 sociétés qu’elles

suivent.

Ce que voulait cette société était de pouvoir analyser les

données dont elle disposait sur ces 32 000 compagnies

pour détecter tout signe de problème tant dans leurs

données financières que dans les données textuelles

transmises à la FCC – en fait une masse de données

structurées, non structurées, etc. Ils ont tenté de faire ça

avec les plates-formes traditionnelles et sont parvenus à

la conclusion qu’il leur faudrait des mois.

Ils ont mis en place un cluster Hadoop, de taille plutôt

modeste, et ont découvert qu’ils pouvaient obtenir leur

résultat en environ 30 minutes sur un jeu de données

compressées de 3 To, ce qui est plutôt puissant. Passer

d’une application qui aurait requis 3 mois sur une plate-

forme standard à 30 minutes, fait toute la différence.

Cela signifie, selon les administrateurs, que l’on passe

d’une situation de type « c’est impossible » à une

situation où « c’est possible avec Hadoop ». C’est de cela

qu’il s’agit. On parle de gens qui peuvent faire des choses

qu’ils ne pouvaient tout simplement pas faire

auparavant.

Alors pour résumer, à quel point Hadoop

est il nécessaire dans les environnements

BigData et si vous ne souhaitez pas le

mettre en oeuvre, quelles purraient être les

alternatives ?

RETOUR D’ EXPÉRIENCE:

QUE FAUT-IL RETENIR

RETOUR D’

EXPÉRIENCE: QUE

FAUT-IL RETENIR

PRESENTATION

LES LIMITES DE LA

TECHNOLOGIE


FAUT IL RETENIR


AUTEURS

MARC STAIMER Fondateur, analyste en chef et président (ou

« pourfendeur de dragon en chef », comme il s’intitule lui-même) de

la société Dragon Slayer Consulting située à Beaverton, dans

l’Oregon. Trente-trois ans d’expérience cumulée dans le marketing

et les ventes viennent s’ajouter à une expérience en entreprise en

infrastructure, stockage, serveurs, logiciels, bases de données, Big

data et virtualisation, et font de lui l’un des principaux experts du

secteur.

CYRILLE CHAUSSON Chef des informations en ligne pour

lemondeinformatique.fr, il s’est très tôt intéressé aux supports

alternatifs aux publications papier et notamment au web. Il a occupé

plusieurs postes de journalistes sur les différents sites du groupe

IDG. En tant que chef d’enquête, il sera amené à traiter quelques

uns de ces sujets pour LeMagIT.fr et participera également à

l’évolution de la plate-forme technique du site.

CHRISTOPHE BARDY Co-fondateur du MagIT, Christophe y a dès le

début pris en charge les rubriques d'infrastructures (Datacenter,

Serveurs, réseaux, Stockage, systèmes d’exploitation, virtualisation.

Aujourd'hui, il est rédacteur en chef adjoint en charge des rubriques

d'infrastructures. Il contribue aussi au contenu éditorial de

StratégiesCloud.fr, le site d'information sur le Cloud du MagIT.

Le document consulté provient du site www.lemagit.fr

Cyrille Chausson | Rédacteur en Chef

Christophe Bardy | Journaliste

Marc Staimer | Journaliste

Linda Koury | Directeur Artistique

Neva Maniscalco | Designer

Mathilde Haslund | Assistante Marketing [email protected]

TechTarget

22 rue Léon Jouhaux, 75010 Paris

www.techtarget.com

©2014 TechTarget Inc. Aucun des contenus ne peut être transmis ou reproduit quelle que soit la

forme sans l'autorisation écrite de l'éditeur. Les réimpressions de TechTarget sont disponibles à

travers The YGS Group.

TechTarget édite des publications pour les professionnels de l'IT. Plus de 100 sites qui proposent

un accès rapide à un stock important d'informations, de conseils, d'analyses concernant les

technologies, les produits et les process déterminants dans vos fonctions. Nos

événements réels et nos séminaires virtuels vous donnent accès à des commentaires et

recommandations neutres par des experts sur les problèmes et défis que vous rencontrez

quotidiennement. Notre communauté en ligne "IT Knowledge Exchange" (Echange de

connaissances IT) vous permet de partager des questionnements et informations de tous les jours

avec vos pairs et des experts du secteur.

http://www.lemagit.fr/

http://reprints.ygsgroup.com/m/techtarget

tout savoir sur hadoop : la technologie, ses usages et ses...

Documents