quelles architectures matérielles pour hadoop ?
Post on 13-Dec-2014
291 Views
Preview:
DESCRIPTION
TRANSCRIPT
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Quelles architectures matérielles pour hadoop ?Francis Barbeau
Architecte Solution Big Data
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.2
Ce que nous demande nos clients et prospects
Les classes de problèmes
Base de discussion : Retour d’expérience clients base installée France
Les classes de problèmes que nous adressent nos prospects et clients
• Exécuter des jobs Map/Reduce sur des fichiers log
• Exécuter des requêtes interactives
• Valider la qualité des données
• Transformer/préparer des données
• Recevoir des flux de messages
• Exécuter des traitements mathématiques statistiques
• Stocker des données à très long terme pour des besoins légaux
• Utiliser des packages logiciels Open Source (Ex Open TSDB)
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.3
2 Grands Types de serveurs
Architecture Hadoop : Les serveurs
• Les nœuds de contrôle
• 1 serveur Primary Name Node
• 1 serveur Secondary Name Node / Resource Manager
• 1 Serveur Edge Node
• Les nœuds de traitement
• n serveurs Worker Nodes / Data Nodes
• Rôle du Edge Node
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.9
Core Hadoop : HDFS
Self-healing, high bandwidth
1
2
3
4
5
2
1
1
HDFS
1
3
3
4
4
5
2
3
2
5
5
4
HDFS breaks incoming files into blocks and stores them redundantly across the cluster.
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.4
Les nœuds de contrôle
Architecture Hadoop : Les serveurs
• Les nœuds de control – Name Nodes – Resource Mger– Dimensionnement de la mémoire
– Type de processeur
– Type de disques
– Format des disques
– Capacité des disques
• Les nœuds de control – Edge Node– Dimensionnement de la mémoire
– Type de processeur
– Type de disques
– Format des disques
– Capacité des disques
– Haute disponibilité
Serveur 2U de hauteur
8 disques SFF
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.5
Les nœuds de traitement
Architecture Hadoop : Les serveurs
• Les nœuds de traitement – Worker/Data Nodes– La volumétrie utilisateur est déterminante
– Le facteur de réplication dimensionne le cluster
– La capacité des disques dimensionne le nombre de nœuds
– La densité des serveurs a un impact direct sur l’emprise au sol
• Leurs caractéristiques– Le type de workload détermine leurs caractéristiques
– Type de disques SAS ou SATA ?
– Format des disques
– Capacité des disques
– Type de processeur
– Quantité de mémoire
Serveur 2U de hauteur12 disques LFF
Châssis de 3 Serveurs3 x 15 Disques LFF
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.6
Illustration de la densité des serveurs42
41
40
39
38
37
36
35
34
33
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
42
41
40
39
38
37
36
35
34
33
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
SAS300 GB
15K
ProLiant
DL360p
Gen8
UIDSID
3
4
1
2
5
6 7 8
SAS300 GB
15K
SAS300 GB
15K
SAS300 GB
15K
SAS300 GB
15K
SAS300 GB
15K
SAS300 GB
15KSAS
300 GB
15K
SAS300 GB
15K
ProLiant
DL360p
Gen8
UIDSID
3
4
1
2
5
6 7 8
SAS300 GB
15K
SAS300 GB
15K
SAS300 GB
15K
SAS300 GB
15K
SAS300 GB
15K
SAS300 GB
15KSAS
300 GB
15K
SAS300 GB
15K
ProLiant
DL360p
Gen8
UIDSID
3
4
1
2
5
6 7 8
SAS300 GB
15K
SAS300 GB
15K
SAS300 GB
15K
SAS300 GB
15K
SAS300 GB
15K
SAS300 GB
15KSAS
300 GB
15K
UID
ProLiant
DL380e
Gen8
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
UID
ProLiant
DL380e
Gen8
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
UID
ProLiant
DL380e
Gen8
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
UID
ProLiant
DL380e
Gen8
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
UID
ProLiant
DL380e
Gen8
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
UID
ProLiant
DL380e
Gen8
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
UID
ProLiant
DL380e
Gen8
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
UID
ProLiant
DL380e
Gen8
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
UID
ProLiant
DL380e
Gen8
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
UID
ProLiant
DL380e
Gen8
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
UID
ProLiant
DL380e
Gen8
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
UID
ProLiant
DL380e
Gen8
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
SATA M
DL
7.2
K
2.0
TB
Console
49 525150
1000Base-X
5 6 15 1613 1411 129 107 81 2 3 4 21 22 31 3229 3027 2825 2623 2417 18 19 20 37 38 47 4845 4643 4441 4239 4033 34 35 36 H3C S5120 Series
Power
Green=1000Mbps,Yellow=10/100Mbps HP 5120 Switch Series
Green=10Gbps, Yellow=1Gbps SFP+
Console
10/100/1000Base-T
Speed: Green=1000Mbps, Yellow=10/100Mbps
21 43 65 87 109 1211 242322212019181716151413
Duplex: Green=Full Duplex, Yellow=Half Duplex
Unit
SYS
ModeGreen = SimplexYellow = Duplex
25 26
ManagementACTLINK
HP 5820X Series Switch JG219A
Green=10Gbps, Yellow=1Gbps SFP+
Console
10/100/1000Base-T
Speed: Green=1000Mbps, Yellow=10/100Mbps
21 43 65 87 109 1211 242322212019181716151413
Duplex: Green=Full Duplex, Yellow=Half Duplex
Unit
SYS
ModeGreen = SimplexYellow = Duplex
25 26
ManagementACTLINK
HP 5820X Series Switch JG219A
42
41
40
39
38
37
36
35
34
33
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
42
41
40
39
38
37
36
35
34
33
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
SAS300 GB
15K
ProLiant
DL360p
Gen8
UIDSID
3
4
1
2
5
6 7 8
SAS300 GB
15K
SAS300 GB
15K
SAS300 GB
15K
SAS300 GB
15K
SAS300 GB
15K
SAS300 GB
15KSAS
300 GB
15KSAS
300 GB
15K
SAS300 GB
15K
ProLiant
DL360p
Gen8
UIDSID
3
4
1
2
5
6 7 8
SAS300 GB
15K
SAS300 GB
15K
SAS300 GB
15K
SAS300 GB
15K
SAS300 GB
15K
SAS300 GB
15KSAS
300 GB
15KSAS
300 GB
15K
SAS300 GB
15K
ProLiant
DL360p
Gen8
UIDSID
3
4
1
2
5
6 7 8
SAS300 GB
15K
SAS300 GB
15K
SAS300 GB
15K
SAS300 GB
15K
SAS300 GB
15K
SAS300 GB
15KSAS
300 GB
15KSAS
300 GB
15K
Console
49 525150
1000Base-X
5 6 15 1613 1411 129 107 81 2 3 4 21 22 31 3229 3027 2825 2623 2417 18 19 20 37 38 47 4845 4643 4441 4239 4033 34 35 36 H3C S5120 Series
Power
Green=1000Mbps,Yellow=10/100Mbps HP 5120 Switch Series
Green=10Gbps, Yellow=1Gbps SFP+
SYS
Management ConsoleACTLINK
Green=10Gbps, Yellow=1Gbps SFP+
21 43 65 87 109 1211 24232221201918171615141310/100/1000Base-T
HP 5920Series SwitchJG296A
Green=10Gbps, Yellow=1Gbps SFP+
SYS
Management ConsoleACTLINK
Green=10Gbps, Yellow=1Gbps SFP+
21 43 65 87 109 1211 24232221201918171615141310/100/1000Base-T
HP 5920Series SwitchJG296A
UID
10 134 7111 145 8212 156 93
UID
10 134 7111 145 8212 156 93
UID
10 134 7111 145 8212 156 93
UID UID UID
ProLiant
SL4540
Gen8
UID
10 134 7111 145 8212 156 93
UID
10 134 7111 145 8212 156 93
UID
10 134 7111 145 8212 156 93
UID UID UID
ProLiant
SL4540
Gen8
UID
10 134 7111 145 8212 156 93
UID
10 134 7111 145 8212 156 93
UID
10 134 7111 145 8212 156 93
UID UID UID
ProLiant
SL4540
Gen8
UID
10 134 7111 145 8212 156 93
UID
10 134 7111 145 8212 156 93
UID
10 134 7111 145 8212 156 93
UID UID UID
ProLiant
SL4540
Gen8
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
3.0 TB
6GB DP 7.2K
SAS MDL
100To Utilisateur
Version « Serveur Rack »
100To Utilisateur
Version « Serveur Haute Densité »
SAS300 GB
15K
SAS300 GB
15K
SAS300 GB
15K
• Version serveur 2U de hauteur– 18 serveurs par rack de base
– 19 serveurs par rack additionnel
• Version serveur haute densité– 7 châssis par rack soit 21 serveurs
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.7
Data at Rest
Chiffrement des données
Le chiffrement des données peut se faire de 3 façons différentes :
• Option 1: Chiffrement des données au niveau de l’OS
• Option 2 : Logiciels partenaires de chiffrement des données
• Option 3 : Chiffrement des données au niveau du matériel et des cartes
contrôleurs disques
Leading storage Secure Encryption
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.8
Architecture Hadoop : le réseau
Timeline
Les points d’attention
Network hot spot ! Network hot spot !
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.9
Les principes d’architecture
Hadoop les aspects topologies de réseau
• Hadoop est sensible à la bande passante
• Hadoop n’est pas sensible à la latence
• L’utilisation de commutateur “Deep Buffer Caching” est un atout pour les performances
• La redondance du réseau du cluster est un aspect à considérer
• Topologie réseau « à plat » - Pas de nécessité de disposer de commutateurs d’agrégation
• Utilisation de câbles DAC 10Gbit ou CATe-6 10Gbit Base T
• Différenciation des réseaux
• Mise en œuvre d’un commutateur out-of-bound-management dédié
Network with IRF stack
IRF Stack
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.10
Pour terminer
Conclusion
• Nous disposons d’architectures de référence pour les 3 distributions Cloudera, HortonWorks et MapR
• Les White Papers sont disponibles sur le site web commercial HP
Exemple de White Paper
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Thank you
top related