2. hadoop

17
© 2009 VMware Inc. All rights reserved 企企企企企企企企 董董 董董董董董董董董 VMware

Upload: chiou-nan-chen

Post on 18-Nov-2014

205 views

Category:

Technology


7 download

DESCRIPTION

VMWare Big Data Forum

TRANSCRIPT

Page 1: 2. hadoop

© 2009 VMware Inc. All rights reserved

企业的大数据平台董波大数据产品线经理VMware

Page 2: 2. hadoop

2

这些企业都选择了虚拟化作为大数据基础平台

Vmware 虚拟化平台

Page 3: 2. hadoop

3

企业需要成熟,高效、可扩展的大数据平台

Page 4: 2. hadoop

4

您应该把 VMWare 的虚拟化作为大数据的首选平台

Management

Network/Security

Storage/Availability

Compute

Page 5: 2. hadoop

5

Hadoop 在虚拟化平台上具有优异的性能

TeraGen TeraSort TeraValidate0

50

100

150

200

250

300

350

400

450

Native

1 VM

2 VMs

4 VMs

Ela

psed t

ime,

seco

nds (

low

er

is b

ett

er)

Source: http://www.vmware.com/files/pdf/techpaper/VMW-Hadoop-Performance-vSphere5.pdf

Page 6: 2. hadoop

6

虚拟化平台满足企业 Hadoop 历程中的关键需求

阶段 3: Big Data 生产环境 为许多部门服务 通常为关键业务系统的一部分 与其他 big data 服务集成

如 MPP DB, NoSQL,

阶段 1 :试用 通常开始于某类业务需求 尝试用 1 到 2 个用户案例探索 Hadoop 的价值 通常少于 20 个节点

阶段 2: 生产环境为少数部门服务

使用较多的用户案例核心 Hadoop + 组件通常包括几十、上百个节点

20 3000 node

Inte

gra

ted

Scale

Sta

nd

alo

ne

Page 7: 2. hadoop

7

虚拟化平台让您关注业务而非技术

Page 8: 2. hadoop

8

自动化 Hadoop 集群部署管理

部署

改变尺寸弹性扩展

定制包含最佳实践

管理

配置调整

运行

执行作业访问 HDFS

仅需 1/1000 人力。不必人人都是 Hadoop 专家。

Page 9: 2. hadoop

9

提高 Hadoop 集群可用性

增加 Hadoop 集群的可用性 使用 vMotion 消除计划内停机时间 使用 vSphere HA 减少计划外停机时间 使用 vSphere FT 提供零宕机、零数据丢失 久经沙场的解决方案

HDFS(Hadoop Distributed File System)

HBase (Key-Value store)

MapReduce (Job Scheduling/Execution System)

Pig (Data Flow) Hive (SQL)

BI ReportingETL Tools

Managem

ent

Serv

er

Zooke

epr

(Coord

inati

on)

HCatalog

RDBMS

Namenode

Jobtracker

Hive MetaDB

Hcatalog MDB

Server

Page 10: 2. hadoop

10

主动监控和优化

通过 VCOPs 主动监控 获得全面的可视性 减少手动操作 主动管理可操作性

Page 11: 2. hadoop

11

集群整合共享资源,降低 CAPEX

如果没有虚拟化, CAPEX 意味着每个集群最大负载时硬件投资总和

在虚拟化情形下:• 集群共享资源池• CAPEX 意味着通盘最大负载• 2:1 到 4:1 的整合比

Σ(Max) Max(Σ)

Page 12: 2. hadoop

12

Storage

虚拟化让 Hadoop 更加弹性

Compute

Current Hadoop:

Combined Storage/Compute

Storage

T1 T2

VM VM VM

VMVM

VM

VM 中的 Hadoop- * VM 的生命周期

取决于 Datanode- * 弹性限制

存储分离- * 计算、数据分离- * 消除 Datanode 造成的

弹性限制- * 弹性计算- * 提高利用率

分离计算集群- * 分离虚拟计算- * 每租户配置计算集群- * 更强 VM 级别的

安全和资源隔离

Slave Node

Page 13: 2. hadoop

13

在 Hadoop 中动态横向收缩 / 扩展

为不同租户部署单独的计算集群共享 HDFS

根据优先级和可用资源增加或减少 Task Tracker 数量

Ad hocdata mining

Dynamic resourcepool

Data layer HDFS

Host Host Host Host Host Host

Productionrecommendation engine

Virtualization platform

Compute layer ComputeVM

ComputeVM

ComputeVM

ComputeVM

ComputeVM

ComputeVM

ComputeVM

ComputeVM

ComputeVM

ComputeVM

ComputeVM

ComputeVM

ComputeVM

ComputeVM

ComputeVM

Ad hocdata mining

Productionrecommendation engine

ComputeVM

Job Tracker Job Tracker

Page 14: 2. hadoop

14

虚拟化是最佳的多租户整合方案

物理方案 虚拟化方案

Resource Sharing Yes, Users share a common Hadoop cluster

Yes, Users share common physical servers in different Hadoop clusters

Data Sharing Yes, Users share a common Hadoop cluster

Yes, Different compute clusters share a common HDFS cluster

Performance Isolation Weak, by slot number Strong, by CPU, RAM, Disk IO

Failure Isolation No, Bad job fails entire cluster

Strong, Failure impact only one cluster

Configuration Isolation No, Same configuration, same distro, same version

Yes,Free to use different distro, version, configuration

Security Isolation Weak,Enforced by Hadoop authentication and authorization

Strong,Cluster level isolation.

Scalability Single master node capacity will become a bottle neck

As many Namenode and Jobtracker as needed

Page 15: 2. hadoop

15

VMWare 为企业提供了成熟,高效、可扩展的大数据平台

快速部署、配置和监控 动态配置 Hadoop ,满

足业务需要 一键式 HA 配置

Agility

通过计算节点和数据节点分离,实现全面的弹性计算

根据资源情况,进行Scale In/Out

Elasticity

整合 Hadoop ,提高利用率

池化资源,提高性能和优化作业执行

Efficiency

Page 17: 2. hadoop

17

Q&A