2. hadoop
DESCRIPTION
VMWare Big Data ForumTRANSCRIPT
© 2009 VMware Inc. All rights reserved
企业的大数据平台董波大数据产品线经理VMware
2
这些企业都选择了虚拟化作为大数据基础平台
Vmware 虚拟化平台
3
企业需要成熟,高效、可扩展的大数据平台
4
您应该把 VMWare 的虚拟化作为大数据的首选平台
Management
Network/Security
Storage/Availability
Compute
5
Hadoop 在虚拟化平台上具有优异的性能
TeraGen TeraSort TeraValidate0
50
100
150
200
250
300
350
400
450
Native
1 VM
2 VMs
4 VMs
Ela
psed t
ime,
seco
nds (
low
er
is b
ett
er)
Source: http://www.vmware.com/files/pdf/techpaper/VMW-Hadoop-Performance-vSphere5.pdf
6
虚拟化平台满足企业 Hadoop 历程中的关键需求
阶段 3: Big Data 生产环境 为许多部门服务 通常为关键业务系统的一部分 与其他 big data 服务集成
如 MPP DB, NoSQL,
阶段 1 :试用 通常开始于某类业务需求 尝试用 1 到 2 个用户案例探索 Hadoop 的价值 通常少于 20 个节点
阶段 2: 生产环境为少数部门服务
使用较多的用户案例核心 Hadoop + 组件通常包括几十、上百个节点
20 3000 node
Inte
gra
ted
Scale
Sta
nd
alo
ne
7
虚拟化平台让您关注业务而非技术
8
自动化 Hadoop 集群部署管理
部署
改变尺寸弹性扩展
定制包含最佳实践
管理
配置调整
运行
执行作业访问 HDFS
仅需 1/1000 人力。不必人人都是 Hadoop 专家。
9
提高 Hadoop 集群可用性
增加 Hadoop 集群的可用性 使用 vMotion 消除计划内停机时间 使用 vSphere HA 减少计划外停机时间 使用 vSphere FT 提供零宕机、零数据丢失 久经沙场的解决方案
HDFS(Hadoop Distributed File System)
HBase (Key-Value store)
MapReduce (Job Scheduling/Execution System)
Pig (Data Flow) Hive (SQL)
BI ReportingETL Tools
Managem
ent
Serv
er
Zooke
epr
(Coord
inati
on)
HCatalog
RDBMS
Namenode
Jobtracker
Hive MetaDB
Hcatalog MDB
Server
10
主动监控和优化
通过 VCOPs 主动监控 获得全面的可视性 减少手动操作 主动管理可操作性
11
集群整合共享资源,降低 CAPEX
如果没有虚拟化, CAPEX 意味着每个集群最大负载时硬件投资总和
在虚拟化情形下:• 集群共享资源池• CAPEX 意味着通盘最大负载• 2:1 到 4:1 的整合比
Σ(Max) Max(Σ)
12
Storage
虚拟化让 Hadoop 更加弹性
Compute
Current Hadoop:
Combined Storage/Compute
Storage
T1 T2
VM VM VM
VMVM
VM
VM 中的 Hadoop- * VM 的生命周期
取决于 Datanode- * 弹性限制
存储分离- * 计算、数据分离- * 消除 Datanode 造成的
弹性限制- * 弹性计算- * 提高利用率
分离计算集群- * 分离虚拟计算- * 每租户配置计算集群- * 更强 VM 级别的
安全和资源隔离
Slave Node
13
在 Hadoop 中动态横向收缩 / 扩展
为不同租户部署单独的计算集群共享 HDFS
根据优先级和可用资源增加或减少 Task Tracker 数量
Ad hocdata mining
Dynamic resourcepool
Data layer HDFS
Host Host Host Host Host Host
Productionrecommendation engine
Virtualization platform
Compute layer ComputeVM
ComputeVM
ComputeVM
ComputeVM
ComputeVM
ComputeVM
ComputeVM
ComputeVM
ComputeVM
ComputeVM
ComputeVM
ComputeVM
ComputeVM
ComputeVM
ComputeVM
Ad hocdata mining
Productionrecommendation engine
ComputeVM
Job Tracker Job Tracker
14
虚拟化是最佳的多租户整合方案
物理方案 虚拟化方案
Resource Sharing Yes, Users share a common Hadoop cluster
Yes, Users share common physical servers in different Hadoop clusters
Data Sharing Yes, Users share a common Hadoop cluster
Yes, Different compute clusters share a common HDFS cluster
Performance Isolation Weak, by slot number Strong, by CPU, RAM, Disk IO
Failure Isolation No, Bad job fails entire cluster
Strong, Failure impact only one cluster
Configuration Isolation No, Same configuration, same distro, same version
Yes,Free to use different distro, version, configuration
Security Isolation Weak,Enforced by Hadoop authentication and authorization
Strong,Cluster level isolation.
Scalability Single master node capacity will become a bottle neck
As many Namenode and Jobtracker as needed
15
VMWare 为企业提供了成熟,高效、可扩展的大数据平台
快速部署、配置和监控 动态配置 Hadoop ,满
足业务需要 一键式 HA 配置
Agility
通过计算节点和数据节点分离,实现全面的弹性计算
根据资源情况,进行Scale In/Out
Elasticity
整合 Hadoop ,提高利用率
池化资源,提高性能和优化作业执行
Efficiency
16
欢迎下载试用
Download and try Serengeti• projectserengeti.org
VMware Hadoop site• vmware.com/hadoop
Hadoop performance on vSphere• vmware.com/files/pdf
/VMW-Hadoop-Performance-vSphere5.pdf
Hadoop High Availability solution• vmware.com/files/pdf
/Apache-Hadoop-VMware-HA-solution.pdf
17
Q&A