dr planning

54
数据中心容灾及备份 系统建设规划 赛门铁克软件(北京)有限公司 2010 5 Your Infrastructure. Your Information. Your Interactions. Only Symantec Protects Them All.

Upload: yinjian99

Post on 25-Dec-2014

122 views

Category:

Technology


4 download

DESCRIPTION

 

TRANSCRIPT

Page 1: DR planning

数据中心容灾及备份

系统建设规划

赛门铁克软件(北京)有限公司

2010年 5月

Your Infrastructure. Your Information. Your Interactions. O

nly Symantec Protects Them

All.

Page 2: DR planning

目 录

第 1 章 容灾系统技术规范 ................................... 5

1.1 容灾系统建设总体规划 ........................................... 5

1.1.1 容灾关键技术定义及指标说明 ........................................ 5

1.1.1.1 灾难 .......................................................... 6

1.1.1.2 灾难恢复 ...................................................... 6

1.1.1.3 灾难恢复计划(DRP) ........................................... 6

1.1.1.4 业务影响分析(BIA) ........................................... 6

1.1.1.5 恢复时间目标及恢复点目标(RPO/RTO) ............................. 6

1.1.2 国家容灾标准 GB/T 20988-2007 ....................................... 7

1.1.2.1 第 1 级 基本支持 ............................................... 7

1.1.2.2 第 2 级 备用场地支持 ........................................... 8

1.1.2.3 第 3 级 电子传输和部分设备支持 ................................. 9

1.1.2.4 第 4 级 电子传输及完整设备支持 ................................ 10

1.1.2.5 第 5 级 实时数据传输及完整设备支持 ............................ 11

1.1.2.6 第 6 级 数据零丢失和远程集群支持 .............................. 12

1.1.3 界定数据容灾系统的适用范围 ....................................... 13

1.1.4 界定数据容灾系统建设的目标 ....................................... 13

1.1.5 界定容灾系统的总体架构 ........................................... 14

第 2 章 主流容灾技术说明 .................................. 15

2.1 数据备份 ...................................................... 15

2.2 实时数据保护 .................................................. 15

2.2.1 数据镜像(Mirroring) ............................................ 15

2.2.2 数据复制(Replication) .......................................... 16

2.2.3 软件复制(卷复制) ............................................... 18

2.3 应用级容灾切换 ................................................ 18

2.4 数据恢复测试 .................................................. 19

Page 3: DR planning

第 3 章 容灾系统规划设计 .................................. 21

3.1 容灾系统设计原则 .............................................. 21

3.1.1 安全性 ........................................................... 21

3.1.1.1 不影响生产系统 ............................................... 21

3.1.1.2 保证数据的一致性 ............................................. 22

3.1.2 先进性 ........................................................... 22

3.1.3 创新性 ........................................................... 22

3.1.4 高可用性 ......................................................... 22

3.1.4.1 稳定安全 ..................................................... 22

3.1.4.2 负载高效 ..................................................... 23

3.1.4.3 冗余容错 ..................................................... 23

3.1.5 可扩展性 ......................................................... 23

3.1.6 可管理性 ......................................................... 23

3.2 容灾系统体系规划设计 .......................................... 24

3.3 第一步,灾难恢复需求分析 ...................................... 25

3.4 第二步,确定灾难恢复资源获取方式 .............................. 25

3.5 第三步,深化数据备份系统 ...................................... 25

3.5.1 常规备份与恢复 ................................................... 25

3.5.2 操作系统数据备份 ................................................. 30

3.5.3 备份数据异地保存 ................................................. 31

3.5.4 备份数据异地恢复及验证 ........................................... 32

3.6 第四步,存储整合 .............................................. 33

3.6.1 集中存储及虚拟化管理设计 ......................................... 33

3.6.2 集中存储及虚拟化管理所达到的特点及好处 ........................... 34

3.6.2.1 提高存储系统的可靠性 ......................................... 34

3.6.2.2 提高存储系统的性能 ........................................... 34

3.6.2.3 动态分级存储 ................................................. 35

3.6.2.4 通过快照功能,实现快速恢复 ................................... 35

3.6.2.5 简化存储管理的复杂性 ......................................... 36

3.7 第五步,本地服务器整合 ........................................ 36

Page 4: DR planning

3.8 第六步,实现远程实时数据保护 .................................. 37

3.8.1 远程镜像 ......................................................... 37

3.8.2 Symantec远程镜像数据容灾原理 ..................................... 38

3.8.3 磁盘阵列同步复制原理及局限性 ..................................... 40

3.8.4 操作系统镜像命令作用解释 ......................................... 42

3.8.5 当生产中心数据系统故障 ........................................... 42

3.8.6 灾备中心数据系统故障以及生产中心和灾备中心 SAN链路故障 ........... 43

3.8.7 故障修复后的恢复(远程镜像快速恢复) ............................. 44

3.8.8 远程复制 ......................................................... 50

3.9 第七步,实现远程集群容灾切换 .................................. 52

3.10 第八步,建立数据恢复消防演习机制 .............................. 53

Page 5: DR planning

第 1 章 容灾系统技术规范

随着数据中心的建立和完善,计算机信息系统需要在数据层面、应用层面集中后,

对数据的安全和关键应用的可用性作为风险控制的焦点。很多系统准备或正在进行数

据备份系统的规划和建设实施,数据备份系统建设的目标是要保证数据安全、可用,

使计算机信息系统和数据能够最大限度地防范和解决各种意外和故障所带来的数据

丢失。然而,与大多数工程一样,数据备份/恢复及容灾系统建设本身在总体规划、

方案选择和投产实施后的管理运行,以及真正面对数据恢复时的实际操作等方面也存

在着潜在的风险。

可以说,数据备份容灾系统本身也可能存在风险点,需要小心应对。

备份/恢复及容灾系统建设中所涉及的潜在风险大致可分为技术风险、管理风险

和投资风险,其中尤以技术选择风险最大,技术方案选择优越,可以规避一定的管理

风险和投资风险。而这三者也存在内在的相互关联,不同规模的数据备份/恢复及容

灾方案对应的建设投资规模、所采用的技术以及实施和管理的复杂度也不同,应考虑

保护计算机系统的原有投资并提高数据备份/恢复及容灾系统建设投资的利用率。

1.1 容灾系统建设总体规划

数据备份的目的是为了恢复!

在数据备份的世界里,是有等级观念的,规模不同,数据备份/恢复和容灾系统

所采用的技术和达到的功能是不同的,在系统建设资金投入方面的差距也很巨大。所

以,对于数据中心来说,明确数据备份/恢复及容灾系统建设的总体规划十分必要。

1.1.1 容灾关键技术定义及指标说明

Page 6: DR planning

1.1.1.1 灾难

由于人为或自然的原因,造成信息系统运行严重故障或瘫痪,使信息系统支持的

业务功能停顿或服务水平不可接受、达到特定的时间的突发性事件,通常导致信息系

统需要切换到备用场地运行。

1.1.1.2 灾难恢复

将信息系统从灾难造成的故障或瘫痪状态恢复到可正常运行状态,并将其支持的

业务功能从灾难造成的不正常状态恢复到可接受状态而设计的活动和流程。

1.1.1.3 灾难恢复计划(DRP)

为了减少灾难带来的损失和实现灾难恢复所做的事前计划和安排。

1.1.1.4 业务影响分析(BIA)

分析业务功能及其相关信息系统资源、评估特定灾难对各种业务功能的影响的过

程。

1.1.1.5 恢复时间目标及恢复点目标 (RPO/RTO)

衡量数据备份/恢复技术的技术指标叫 RPO、RTO。

RPO(Recovery Point Objective): 以数据为出发点,主要指的是业务系统所能

容忍的数据丢失量。在发生数据丢失时,数据备份/恢复系统实现数据恢复时,恢复

的数据与原始生产数据不一至的数据量。RPO是反映数据恢复完整性的指标,在在线

数据保护方式下,RPO等于数据同步时间;在离线数据保护方式下,RPO为相临两次

数据备份的时间间隔。

RTO(Recovery Time Objective): 即数据恢复时间目标,主要指的是所能容忍的

实现数据恢复的时间,也就是从系统故障发生,数据不能访问到业务数据恢复,数据

能够备份访问所需要的最短时间。是反映数据恢复及时性的指标,RTO值越小,代表

Page 7: DR planning

数据恢复能力越强。不同规模的数据备份/恢复及容灾方案,RTO定义是不同的。

1.1.2 国家容灾标准 GB/T 20988-2007

国务院信息办《信息系统灾难恢复规范》将关键系统灾难恢复分为七个等级,并

对每个等级的灾难恢复目标进行了具体的定义。比如第一级灾难恢复等级只是在异地

保存备份数据,并不需要在灾备中心部署业务主机,当灾难发生需要恢复业务时,将

从其他地方调配资源,进行业务恢复。

标准中根据灾难恢复等级划分标准,将支持灾难恢复各个等级所需的资源(以下

简称“灾难恢复资源”)分为以下 7 个要素:

1) 数据备份系统

2) 备用数据处理系统

3) 备用网络系统

4) 备用基础设施

5) 技术支持能力

6) 运行维护管理能力

7) 灾难恢复预案

并按照灾难恢复资源的成本与风险可能造成的损失之间取得平衡的原则(以下简

称“成本风险平衡原则”)确定每项业务功能的灾难恢复策略,不同的业务功能可采

用不同的灾难恢复策略。按照灾难恢复等级共分为六个级别。

1.1.2.1 第 1 级 基本支持

第 1级被定义为没有备用数据处理系统需求,没有建立备份网络系统的需求,也

没有技术支持的需求,但能够备份所需要的信息并将它存储在异地,然后根据数据恢

复的具体需求,有选择地建立备份数据恢复平台, 但事先并不提供处理备份数据恢

复的硬件平台。这种方式是最为低成本的数据备份/恢复解决方案,随着技术的发展,

目前的数据备份/恢复方案,已经不仅仅包括文件系统数据、数据库数据、邮件系统

数据,同时也包括了操作系统数据、设备驱动程序,相关补丁和系统配置信息。

第 1级灾难恢复应具的有技术和管理:

Page 8: DR planning

要素 要求

数据备份系统 a)完全数据备份至少每周一次;

b)备份介质场外存放。

备用数据处理系统 —

备用网络系统 —

备用基础设施 a)有符合介质存放条件的场地。

技术支持 —

运行维护支持 a)有介质存取、验证和转储管理制度;

b)按介质特性对备份数据进行定期的有效性验证。

灾难恢复预案 a)有相应的经过完整测试和演练的灾难恢复预案

这是一种用于许多数据中心数据备份的标准方式,数据在完成写操作之后,将会

被送到远离本地的地方,同时具备有数据恢复的程序。在需要实现数据恢复时,一整

套系统和应用安装动作需要在一台未启动的计算机上重新完成恢复。系统和数据将被

恢复并重新与网络相连。这种备份方案相对来说成本较低(仅仅需要传输工具的消耗

以及存储设备的消耗)。 一旦系统可以工作,标准的做法是首先恢复关键应用数据,

其余的应用数据根据需要恢复,但需要一定的时间,同时依赖于什么时候硬件平台能

够被提供准备好。

1.1.2.2 第 2 级 备用场地支持

第 2级相当于是第 1级再加上具有热备份能力的数据备份中心。热备份中心拥有

足够的硬件和网络设备去支持关键应用的安装需求。对于十分关键的数据,在数据不

能在原数据中心中实现恢复时,必须在异地有正运行着的硬件平台提供恢复支持。这

种数据备份中心的方式依赖于用备份投递的方法去将日常数据放在备份数据中心存

储,虽然移动数据到一个热备份中心增加了成本,但却明显降低了数据恢复的时间。

第 2 级灾难恢复的技术和管理支持:

要素 要求

数据备份系统 a)完全数据备份至少每周一次;

b)备份介质场外存放。

备用数据处理系统 a) 灾难发生时能在预定时间内调配所需的数据处理设

备到场。

Page 9: DR planning

备用网络系统 a) 灾难发生时能在预定时间内调配所需的通信线路和

网络设备到位

备用基础设施 a) 有符合介质存放条件的场地;

b) 有满足信息系统和关键业务功能恢复运作要求的备

用场地。

技术支持 —

运行维护支持 a) 有介质存取、验证和转储管理制度;

b) 按介质特性对备份数据进行定期的有效性验证;

c) 有备用场地管理制度;

d) 与相关厂商有符合灾难恢复时间要求的紧急供货协

议;

e) 与相关运营商有符合灾难恢复时间要求的备用通信

线路协议。

灾难恢复预案 有相应的经过完整测试和演练的灾难恢复预案

1.1.2.3 第 3 级 电子传输和部分设备支持

第 3 级灾难恢复应具有技术和管理支持:

要素 要求

数据备份系统 a) 完全数据备份至少每天一次;

b) 备份介质场外存放;

c) 每天多次利用通信网络将关键数据定时批量传送至

备用场地。

备用数据处理系统 a) 配备灾难恢复所需的部分数据处理设备。

备用网络系统 a) 配备部分通信线路和相应的网络设备。

备用基础设施 a) 有符合介质存放条件的场地;

b) 有满足信息系统和关键业务功能恢复运作要求的场

地。

技术支持 a) 在备用场地有专职的计算机机房运行管理人员。

运行维护支持 a) 按介质特性对备份数据进行定期的有效性验证;

b) 有介质存取、验证和转储管理制度;

c) 有备用计算机机房管理制度;

d) 有备用数据处理设备硬件维护管理制度;

e) 有电子传输数据备份系统运行管理制度。

灾难恢复预案 有相应的经过完整测试和演练的灾难恢复预案

第 3级是在第 2级的基础上用电子链路取代了车辆进行数据传送的数据备份。接

Page 10: DR planning

收方的硬件平台必须与生产中心物理地相分离,在故障发生后,存储的数据用于数据

恢复。由于热备份中心要保持持续运行并配备了灾难恢复所需的数据处理的软硬件部

分,因此增加了成本。但确实是消除了运送工具的需要,提高了数据恢复的速度。

1.1.2.4 第 4 级 电子传输及完整设备支持

第 4 级灾难恢复应具有技术和管理支持:

要素 要求

数据备份系统 a) 完全数据备份至少每天一次;

b) 备份介质场外存放;

c) 每天多次利用通信网络将关键数据定时批量传送至

备用场地。

备用数据处理系统 a) 配备灾难恢复所需的全部数据处理设备,并处于就绪

状态或运行状态。

备用网络系统 a) 配备灾难恢复所需的通信线路;

b) 配备灾难恢复所需的网络设备,并处于就绪状态。

备用基础设施 a) 有符合介质存放条件的备用场地;

b) 有符合备用数据处理系统和备用网络设备运行要求

的场地;

c) 有满足关键业务功能恢复运作要求的场地;

d) 以上场地应保持 7 x 24 运作。

技术支持 在备用场地有:

a) 7 x 24 专职计算机机房管理人员;

b) 专职数据备份技术支持人员;

c) 专职硬件、网络技术支持人员。

运行维护支持 a) 有介质存取、验证和转储管理制度;

b) 按介质特性对备份数据进行定期的有效性验证;

c) 有备用计算机机房运行管理制度;

d) 有硬件和网络运行管理制度;

e) 有电子传输数据备份系统运行管理制度。

灾难恢复预案 有相应的经过完整测试和演练的灾难恢复预案

第 4级 这种数据备份要求两个中心相关的主机同时处于活动状态并管理彼此的

备份数据,实现数据的在线备份。备份中心硬件平台必须保证与生产中心方平台物理

地相分离,在两个中心之间,在线关键数据的拷贝多次向备份中心传送着。在故障发

生时,备份中心具备关键业务灾难恢复所需的全部数据处理设备,并处于就绪状态或

Page 11: DR planning

运行状态,以及灾难恢复所需的网络设备并处于就绪状态,保证需要恢复的关键数据

通过可迅速恢复。

1.1.2.5 第 5 级 实时数据传输及完整设备支持

第五级灾难恢复应具有技术和管理支持:

要素 要求

数据备份系统 a) 完全数据备份至少每天一次;

b) 备份介质场外存放;

c) 采用远程数据复制技术,并利用通信网络将关键数据

实时复制到备份场地。

备用数据处理系统 a) 配备灾难恢复所需的部分数据处理设备。

a) 配备灾难恢复所需的全部数据处理设备,并处于就绪

状态或运行状态。

备用网络系统 a) 配备灾难恢复所需的通信线路;

b) 配备灾难恢复所需的网络设备,并处于就绪状态。

c) 具备通信网络自动或集中切换能力。

备用基础设施 a) 有符合介质存放条件的备用场地;

b) 有符合备用数据处理系统和备用网络设备运行要求

的场地;

c) 有满足关键业务功能恢复运作要求的场地;

d) 以上场地应保持 7 x 24 运作。

技术支持 在备用场地有:

a) 7 x 24 专职计算机机房管理人员;

b) 7 x 24 专职数据备份技术支持人员;

c) 7 x 24 专职硬件、网络技术支持人员

运行维护支持 a) 有介质存取、验证和转储管理制度;

b) 按介质特性对备份数据进行定期的有效性验证;

c) 有备用计算机机房运行管理制度;

d) 有硬件和网络运行管理制度;

e) 有实时数据备份系统运行管理制度。

灾难恢复预案 有相应的经过完整测试和演练的灾难恢复预案

第 5级是考虑生产中心和备份中心相距离隔较远, (根据单一提交更新范围,在

本地和远程数据库中同时更新着数据),也就是说,在更新请求被认为是满意之前,

第 5级需要生产中心与备份中心的数据都被更新。我们可以想象这样一种情景,数

据在两个中心之间相互映像,由远程两个阶段提交过程来同步,因为关键应用使用了

Page 12: DR planning

双重在线存储,所以在故障发生时,仅仅传送中的数据被丢失,恢复的时间被降低到

了小时级。

1.1.2.6 第 6 级 数据零丢失和远程集群支持

第六级灾难恢复应具有技术和管理支持:

要素 要求

数据备份系统 a) 完全数据备份至少每天一次;

b) 备份介质场外存放;

c) 远程实时备份,实现数据零丢失。

备用数据处理系统 a) 备用数据处理系统具备与生产数据处理系统一致的

处理能力并完全兼容;

b) 应用软件是“集群的”,可实时无缝切换;

c) 具备远程集群系统的实时监控和自动切换能力。

备用网络系统 a) 配备与生产系统相同等级的通信线路和网络设备;

b) 备用网络处于运行状态;

c) 最终用户可通过网络同时接入主、备中心。

备用基础设施 a) 有符合介质存放条件的备用场地;

b) 有符合备用数据处理系统和备用网络设备运行要求

的场地;

c) 有满足关键业务功能恢复运作要求的场地;

d) 以上场地应保持 7 x 24 运作。

技术支持 在备用场地有:

a) 7 x 24 专职计算机机房管理人员;

b) 7 x 24 专职数据备份技术支持人员;

c) 7 x 24 专职硬件、网络技术支持人员;

d) 7 x 24 专职操作系统、数据库和应用软件技术支持

人员。

运行维护支持 a) 有介质存取、验证和转储管理制度;

b) 按介质特性对备份数据进行定期的有效性验证;

c) 有备用计算机机房运行管理制度;

d) 有硬件和网络运行管理制度;

e) 有电子传输数据备份系统运行管理制度。

e) 有实时数据备份系统运行管理制度。

f) 有操作系统、数据库和应用软件运行管理制度。

灾难恢复预案 有相应的经过完整测试和演练的灾难恢复预案

第 6级在第 5级的基础上,除了可以实现零数据丢失率,同时保证数据立即自动

Page 13: DR planning

地被传输到备份中心,第 6级被认为是数据备份的最高的级别,在本地和远程的所有

数据被更新的同时,利用了双重在线存储的能力,第 6级容灾中最昂贵的方式,也

是速度最快的恢复方式。此外第 6级容灾方式通过扩展常规的本地集群,所有关键应

用软件除了在本地采用集群技术保护,而且在本地集群和容灾集群之间建立相互监控

关系,这样由于在生产中心和容灾数据中心都存在集群,在生产集群和容灾集群之间,

必须具有某种通讯能力,当生产中心某个集群或整个生产中心出现灾难时,能并能被

集群监控软件实时监控,并估计预先设计好的切换策略,对不同类型的故障作出正确

的响应,考虑到底层的数据已经建立在第 5级基础上实现了生产中心和备份中心的可

靠同步,因此在系统、应用软件或本地硬件出现故障时,就能自动实时的切换到备用

中心系统,实现最高级别的应用高可用。

因此,需要根据各个计算机处理系统中数据的重要性,以及需要恢复数据的速度

和程度,来进行数据备份/恢复及容灾系统的总体规划。

1.1.3 界定数据容灾系统的适用范围

分析不同的应用系统,确定数据备份/恢复及容灾系统是一个覆盖整个计算机系

统的工程,根据业务的重要性,对不同的系统采用不同级别的数据备份/恢复及容灾

方案,如针对关键的业务应用子系统,实施高级别的数据备份/恢复及容灾工程;对

低级别的业务系统,实施低级别的数据备份/恢复及容灾工程。总之要建立一个综合

性的整体数据备份/恢复及容灾建设工程。

1.1.4 界定数据容灾系统建设的目标

生产系统在单位时间内的数据处理能力或 IO流量确定的情况下,RPO实际上成

为一个反映数据备份过程中的数据丢失量的指标。而 RTO则是指实现数据恢复指标,

这不仅要考虑数据的恢复时间,还应该考虑恢复后数据的完整性、一致性的修复和确

认、备份中心计算机处理系统的启动和备份中心的数据可访问等全部时间。

Page 14: DR planning

但是设计数据备份/恢复系统不能只看 RTO和 RPO,对于不同的业务系统和用户特

殊的要求,其它一些指标有可能成为选择数据备份/恢复方案的主要因素。例如,要

求数据备份中心与业务中心保持足够的距离,在这种情况下,数据备份中心与业务中

心的距离要求就是数据备份/恢复系统的重要指标。

通信网络是数据备份/恢复系统的组成部分,通信线路的质量也是数据备份/恢复

系统的性能指标之一,其中包括网络的数据传输带宽、网络传输通道的冗余和网络服

务商的服务水平(网络年中断率)。如果容灾系统使用的通信网络是确定的,为了比

较不同数据容灾解决方案,可以用单位存储容量的数据库在同一通信网络上的数据完

全恢复时间作为一项设计指标。

大部分业务数据都是数据库应用结构,但业务数据的备份/恢复及容灾,并不等于

是数据库备份、恢复,还包括访问数据库的应用程序和相关配置信息。实现数据库备

份是数据备份/恢复及容灾系统的基础,在保数据库数据一致的前提下,还要实现应

用程序和配置信息的一致性;实现应用系统的高可用性、应用程序在数据备份中心与

生产中心接管和切回的过程,保证当生产中心发生灾难时,容灾中心能依次有序的恢

复业务应用,必须在集群内,集群之间定义好个业务子系统之间的倚赖关系和启动、

停止次序。这样在当灾难发生时,才能实现快速、正确的业务恢复。因此,还要考虑

应用的模式是 C/S、B/S,两层、三层、多层次的应用结构等等。

1.1.5 界定容灾系统的总体架构

根据实际需求、现有技术、所在地域、计划防范的故障种类和预算投入的资金量

等实际情况,确定数据备份/恢复及容灾系统预期达到的级别,并以此来确定数据备

份/恢复容灾系统与生产运行系统在地理位置上的距离(同城还是异地或两者兼备-

堡垒节点的两地三中心组成),备份数据存储所在的介质(磁盘还是磁带或两者兼备),

备份数据在生产中心与备份中心传输的方式(这就涉及到了具体的计算机存储与网络

技术),以及备份中心计算机系统的处理能力和网络接管所需的具体架构(是否与生

产中心采用完全同等数量、容量和性能的计算机、存储设备和网络体系结构)。

Page 15: DR planning

第 2 章 主流容灾技术说明

根据国家容灾标准评审定义,数据备份/恢复容灾规划必需涵盖了如下内容:

2.1 数据备份

数据备份是系统、数据保护的基础,也是抵御逻辑故障、恶性操作的唯一方案。

目前备份技术主要有快照备份、离线备份、异地存储备份。备份系统通过备份策略,

对计算机信息系统的操作系统、文件系统、应用程序、数据库系统等数据集,实现某

一时间点的完整拷贝,拷贝的数据处在非在线状态,不能被立刻访问,必须通过相应

操作,如恢复等方式使用备份数据。这也解决了实时数据保护不能解决的问题:人为

误操作、恶意性操作等,这类操作,计算机系统是不能区分的,一旦执行,将造成数

据中心、备份中心数据同时修改;对于数据库系统,在日志完整时,可以通过回滚方

式修改,对于文件系统、操作系统等其他配置信息是不能回滚的,将造成毁灭性的结

果。

目前成熟的备份软件如 Symantec NetBackup。

2.2 实时数据保护

实时数据保护,就是在多块磁盘上、多个阵列、多台服务器、多个数据中心实时

的保存同一份数据的多份存储,目的是为了避免物理故障,数据不会因为一块磁盘、

一个阵列、一台服务器、一个数据中心的故障,而不能访问。

此外因为距离限制,还衍生出了准实时数据保护技术;实时数据保护一般是通过

扩展 SAN网络实现而准实时数据保护一般通过 TCP/IP网络实现。

目前实时数据保护的技术主要有两种:数据镜像和数据复制。

2.2.1 数据镜像(Mirroring)

Page 16: DR planning

数据镜像(Mirroring)是冗余的一种类型,一个磁盘上的数据在另一个磁盘上

存在一个完全相同的副本即为镜像。镜像技术可以保证两份数据完全一样。

成熟的镜像技术在主机卷层面,因为这种技术可以在主机层面屏蔽来自不同厂商

阵列带来的技术差异性;同时这种技术可以实现同步的 IO写镜像在性能上更有优势;

先进的卷镜像技术可以识别来自不同站点的镜像磁盘,可以设置读策略让读操作指针

对生产中心阵列从而减少数据镜像对生产中心环境的 IO压力,对于由于光纤链路,

磁盘阵列控制卡或阵列本身造成的延迟也可以作出判断和应对,一旦真的发生故障可

以禁用到该站点阵列的写操作,确保在应用在该站点的所有阵列上的数据保持一致性

同时开始在正常的环境启用日志记录故障中的每个写操作;在故障修复以后可以通过

快速同步机制进行增量的快速同步对于远程镜像这种方式不但效率高而且非常可靠。

目前主流的卷镜像技术有 Symantec Storage Foundation。

2.2.2 数据复制(Replication)

数据复制(Replication)是将一个原数据及其改动,通过后续机制拷贝到其他

地方,可以是另一个磁盘、另一个阵列、另一个服务器、另一个数据中心。由于实现

的机制不同,又分为同步复制和异步复制两种方式。同步复制,能够确保两份数据完

全一致,此种方式对网络传输带宽及磁盘活动状态有一定要求,例如网络带宽限制了

数据的实时同步,将造成延时从而对系统的影响较大;异步复制,通过后续机制,确

保将本地改动的数据复制的异地,对系统的影响较小,但数据同步有延迟,是目前实

现远程异地数据同步的主要方法。

很多硬件厂商都有基于自己阵列的硬件镜像方式。但是硬件厂商的镜像方式通常

不能在阵列之间进行,因此容易形成以阵列为单位的单故障点。有些高端阵列可以提

供阵列之间的复制技术,这种技术也被称为“背靠背复制技术”,然而这种技术通常

需要复制的阵列采用同一型号,同一配置甚至同一固件版本,因此很容易造成锁定某

种品牌造成扩展性的限制;所谓的阵列间“镜像”实际上并不是真正的镜像技术,因

Page 17: DR planning

为在生产端主机端看到的实际上还只是生产端得阵列,因此“镜像”是在阵列和阵列

之间实现的,因此不但在 IO性能上之后,在阵列或链路出现故障时不能做到自动判

断,这会直接造成应用停顿;而手工进行接管的时间通常需要 15分钟到半个小时,

这对核心应用的可靠性是很难得到保障的;上层应用通常可能配置了多个磁盘阵列作

为存储,这往往需要多个阵列提供一致性的复制手段保障应用的一致性复制,这对于

不同品牌的阵列和网络条件是极难做到的;最后多种阵列复制技术对未来实现跨越站

点的切换将造成不确定性和实施的复杂性。

从复制层面来说,还有通过应用层面来完成数据复制的方式,这种方式多数只能

应用在某个特定的数据库的日志复制层面,对于非结构化的数据没有解决方案;日志

复制方式需要在容灾中心部署主机,并在生产端完成对数据库的每个交易的分析后进

行复制,对于每个生产数据交易的分析将会很大程度上影响生产数据库的性能,尤其

对生产交易型服务器高峰期的性能将造成直接影响,而且这种复制技术往往没有经过

数据库的官方认证,一旦数据库版本升级将有可能造成复制的延续性受阻;虽然数据

库复制技术可以提供数据在线分析,数据挖掘等提供帮助,然而其自身架构的限制很

大程度上决定了这种方式适合做双活中心的交易分析、挖掘等,而不是一个灾备解决

方案。

还有一种称为虚拟存储层的复制解决方案,这种方法是部署在存储阵列和主机之

间。但是由于需要维护主机层到存储的写一致性,通常需要在主机端部署软件这将直

接影响主机层面的稳定性;我们都知道在交换层面因为承担了生产存储环境承上启下

的角色,因此对性能和稳定性要求是非常苛刻的;对于部署在中间层次的虚拟技术属

于“带内技术”,因为其自身往往是 PC服务器架构,因此在性能上是很难得到保障

的,其次这种架构为了提高稳定性通常需要部署双机集群架构和双控制卡提供冗余;

而双机集群如果在判断和切换上出现问题,将直接影响整个存储环境进而影响应用的

可靠性;多控制卡的部署需要多链路驱动支持,然而面临生产中心底层多种阵列和上

层多种操作系统,即便是新推出了“带外技术”这种虚拟化技术都会力不从心;因此

这种技术还很不成熟,目前国内鲜有成功案例出现。

Page 18: DR planning

2.2.3 软件复制(卷复制)

复制方式基于数据卷 Volume进行。复制的数据可以是数据库中的数据(文件方

式或裸设备方式),数据库日志,复制的数据也可以是各种文件,如应用和数据库配

置文件,应用程序,库文件,等等。复制的示意图见图四。Symantec Volume

Replicator(简称 VVR)是一种远程卷数据复制。

卷复制技术与磁盘卷管理技术可以完全集成在一起。因此可以通过用存储卷管理

管理界面和命令统一配置管理;由于卷复制技术仅仅将卷上每次 I/O的实际数据实时

复制到远程节点,所以在网络线路上传输的数据量很少,对带宽的需求也很小,因此

也与应用无关,只要是在定义的复制卷上的仍和操作,都会被复制到异地。

2.3 应用级容灾切换

所谓高可用性,用最简单的话说,就是系统在使用过程中有百分之多少的时间是

可用的。一般情况下,群集系统需要达到 99~99.8%的可用性,也就是说,系统每

年有四天零九个小时不可用是可以接受的。

Page 19: DR planning

如果对系统进行了一些特别的优化管理,减少一些配置上不必要出现的错误,把

可用性提升到 99.9%~99.98%也是不成问题的。在某个群集中,可以使系统的可用

性达到 4个 9或 5个 9;对于一些容错率特别高的系统,可能达到 5个 9,甚至 6个

9以上。

所以,全面的容灾保护方案,意味着除了要实现本地的切换保护外,更要实现数

据的实时异地复制和业务系统(包括数据库和应用软件)的实时远程切换。

从高可用设计的角度来说,一些关键业务系统应该已经在本地实现了数据冗余共

享,并且在本地采用了高可用的群集保护可以在应用、进程或硬件出现故障时实现本

地应用切换保护,但是如果本地整个应用系统群集都发生了故障,这种本地高可用性

设计的局限性就凸显出来了。因此按照国家容灾标准的最高级别要求,需要在前面提

到的数据层面复制实现的基础上,建立起一个可以在主生产中心和远程备份中心切换

的容灾大集群架构。其切换行为应该为:

1.当应用系统某个资源或系统发生故障时,在本数据中心内切换。

2.数据中心发生故障时,切换到备份数据中心。

3.当主数据中心发生灾难时,切换到容灾备份中心。

集群之间如果发生互备关系(即一个集群环境有问题,其管理的应用切换到另一

个集群中运行),它们之间的监控可以经过跨广域网的心跳协议实现。应用切换的动

作通常需要由人工控制,因为灾难恢复是需要经过严格的审查和判断后做出的,因此

在广域网集群环境中通常不推荐采用类似本地集群的自动切换方式。

当应用切换到容灾中心时,应该有 DNS域名解析等相应映射修改机制,保证客户

端可以透明的存取切换到备份中心的应用,甚至可以通过大的虚拟 IP或 DNS虚拟映

射等方式实现透明切换。

2.4 数据恢复测试

大部分的数据备份/恢复系统方案,在项目实施后,很难有机会来实现恢复测试,

因为对于大部分方案来说,这种预演活动,需要耗费大量的人力财力。

Page 20: DR planning

但是定期数据恢复测试是必不可少的,它是测试目前的备份数据的有效性唯一手

段,因此建立一个数据恢复测试环境,也是数据备份/恢复及容灾系统规划中必不可

少的内容。这一点在国家容灾标准中从第 1级到第 6级都有明确的要求。

Page 21: DR planning

第 3 章 容灾系统规划设计

3.1 容灾系统设计原则

我们认为系统设计原则是必须要贯穿数据中心信息生命周期管理的全过程。并且

以数据中心业务为核心,保障数据中心业务的全天候连续,高效,稳定的运行,实现

数据中心信息系统的最大价值。

项目设计原则:

安全性

先进性

创新性

高可用性

可扩展性

可管理性

3.1.1 安全性

数据备份/恢复及容灾系统的安全性,包含两个方面的内容:

不影响生产系统

保证数据的一致性

3.1.1.1 不影响生产系统

为了减少 RPO,备份系统需要及时的备份生产环境数据的变化,无论采用什么样

的技术实现数据备份或容灾,或多或少需要占用系统资源,对生产环境有一定的影响。

因此在规划设计时,我们应该考虑如何减少对生产环境的影响、或者说将这样的影响

规划在能够接受的范围内。

Page 22: DR planning

3.1.1.2 保证数据的一致性

数据备份,是指对某一应用某一时间点的所有相关的数据实现这一时间点的拷

贝,如 Oracle数据库的备份,包括多个数据文件、控制文件、多个联机日志文件、

多个归档日志文件,需要对这些所有文件同一时间点拷贝成功,备份才成功,对于任

意一个文件拷贝不成功,备份数据作用就算失败。因此,在容灾系统的建立,必须以

保证数据一致性为前提,这是保证备份数据恢复可用的唯一标准。

3.1.2 先进性

数据容灾系统要保证系统设计的先进性,能快速的进行系统数据的备份和恢复。

在备份系统整个架构进行设计是就采用国际上最新的技术和最成熟的备份体系。现在

信息技术的发展可以说是日新月异,一般三年为一个周期就会淘汰一批技术和产品,

因此,要保护客户的投资和备份方案得以延续就必须采用先进的技术,并且这种技术

和产品必须被业界公认为成熟且有发展前途的,至少在 5 年内具有强大的生命力。

3.1.3 创新性

数据备份/恢复及容灾系统设计有共通性,也会因为实际的应用环境而产生的差

异性,方案配合实际的应用环境,进行随需应变的设计,根据实际的信息系统进行创

新的方案设计。现在数据中心的数据备份/恢复及容灾方法,早已不在是早期单服务

器的数据备份和恢复方式了。

3.1.4 高可用性

数据中心数据负责所有信息业务,对典型的关键业务数据如 ERP系统应用,是不

能丢失的,对数据备份/恢复系统设计的高可靠性有着很高的要求。数据备份/恢复和

容灾系统的高可靠性尤为重要。

一个数据备份/恢复容灾系统要达到高可用性需要具备下列条件:

3.1.4.1 稳定安全

一个保证企业业务有效运行的数据备份/恢复方案,必须是稳定系统结构和环境,

Page 23: DR planning

保证信息系统的安全运行。存储安全,包括存储备份数据不受系统硬件、软件、外部

环境一定变化下的影响;不受数据网络传输的影响;不受病毒、黑客的影响;有符合

需求的安全的认证机制;有合理的数据备份策略机制。

3.1.4.2 负载高效

数据备份/恢复容灾系统可以承受高负载状态下的持续稳定运行,并且保证高效

运行。数据备份/恢复容灾系统要保证大量的应用、服务器存储数据。如何在这样的

大数据容量下满足多服务器并发备份,整个系统的性能也是一个非常关键的要求。同

时考虑到数据容量的持续增长,服务器数量的不断增加,容灾系统的性能必须能够很

好的适应未来的扩充和扩展的需要。

3.1.4.3 冗余容错

数据备份/恢复容灾系统的冗余容错设计,可以避免系统单点故障,在系统出现

重大故障时,仍然可以启用冗余设备保证数据备份的正常运行。

3.1.5 可扩展性

在数据中心的信息系统的升级和业务流程变更的情况下,可以进行在线的数据备

份/恢复及容灾系统功能扩展,有良好的系统兼容性,并且能为其他系统提供扩展接

口。作为集中存储的基本要求,系统应能支持巨大的存储容量,可以集中存储不同平

台的数据,从而实现信息的集中存储和集中管理。同时由于该系统计划分步进行建设,

将分步进行扩展,逐步满足其他的数据备份/恢复容灾需求。随着服务器数量的增加、

业务数据量的增加、业务的发展以及环境的变化,许多新的应用或新的服务会不断产

生,因此对容灾系统的可扩展性有很高的要求。这主要表现在对系统容量的平滑扩充

以及对新的主机系统的平滑连接,以尽量减少对已有正常业务的影响。这就要求数据

备份/恢复及容灾技术应做到尽量与存储平台、厂商、存储设备无关。此外,扩展性

的要求还包括了对于容灾系统功能扩展的要求,例如应用的切换能可以通过技术自适

应底层存储级别复制技术的需要,作到无缝平滑连接。

3.1.6 可管理性

Page 24: DR planning

对于数据备份/恢复及容灾系统的管理员,系统的可操作性,易用性是很重要的,

系统提供良好的管理接口,能为管理员的维护工作提供良好的平台。由于信息系统的

数据量非常巨大,如何有效的管理大量的用户数据,如何对整个存储系统进行有效的

管理、监控和维护,如何对用户的资源进行合理的配置,都对该系统的管理提出了巨

大的挑战。另外作为集中的数据备份/恢复容灾平台,如何在多台服务器之间对容量

进行灵活的划分、调度以及用户权限设置也为系统的管理提出了巨大的挑战。 同时

该数据备份/恢复容灾系统应该能够与数据中心现有的网络和应用有机结合,成为数

据中心的信息基础架构。

3.2 容灾系统体系规划设计

如上图,对于数据中心,建议建立管理的本地数据备份,同城数据实时备份,异

地远程数据备份,城域、广域高可用全局应用容灾切换的长远规划。

结合国家标准容灾 6级标准,我们建议通过数据及业务系统分级梳理、分步实施,

Page 25: DR planning

逐渐建立这一整套完善的数据备份/恢复及容灾体系:

第一步,灾难恢复需求分析

第二步,确定灾难恢复资源获取方式

第三步,深化数据备份系统;

第四步,存储整合;

第五步,服务器整合;

第六步,实现远程实时数据保护;

第七步,实现远程集群容灾切换;

第八步,建立数据恢复消防机制。

3.3 第一步,灾难恢复需求分析

这一步需要和顾问公司一起针对生产中心的不同应用进行相关分析和梳理。

3.4 第二步,确定灾难恢复资源获取方式

这一步需要和顾问公司一起针对生产中心的不同应用进行相关分析和梳理。

3.5 第三步,深化数据备份系统

3.5.1 常规备份与恢复

全面实现国标容灾规范中第一级本地数据备份/恢复方案。

常规数据备份/恢复是数据保护最有效、最基本的手段。对于数据中心的所有计

算机服务器我们应该考虑通过现有的专业备份软件,建立本地统一的数据备份系统,

实现集中数据的备份,这些数据包括不同服务器上的文件系统数据,如 word文档、

excel表格、图表等,包括数据库数据文件、配置文件、日志文件,包括邮件信息等

等,定义好相关数据的备份策略和备份数据有效期,扩大本地数据备份的覆盖面,保

护好核心数据的备份。

Page 26: DR planning

关键业务的备份数据可以先存储在磁盘上,之后通过策略设置的生命周期管理策

略转存到磁带库中,建议最终存储到磁带库的磁带中,这样便于数据的离线保护,避

免逻辑故障和恶性破坏,更有利于未来到异地场外容灾保护及恢复的前期基础实现。

在所有信息技术当中,数据保护流程和技术是最为成熟的,但是数据保护环境的

规模、重要性和复杂性日益增长,以及这方面的要求不断提高,已经逐渐发展成为新

的挑战。Backup Exec 平台通过对 Windows平台服务器进行集中式端到端管理,提供

了新一代数据保护,从而可以应对这些挑战。

数据保护挑战

数据日益增多

由于合并和收购、新建的灾难恢复远程数据中心以及现有数据中心的结构性增

长,企业必须保护的数据数量一直在逐步增长。近年来,越来越多的应用程序发展为

关键业务应用程序,数据增长率也随之提高。迫于竞争和法规压力,现有应用程序亟

需更高的可用性和更快的恢复速度。脱机应用程序(如供应链管理)不断演变为在线

形式,同时在医疗、在线金融服务、零售和其他市场中不断引入创新的增值应用程序。

这些新应用程序产生了前所未有的庞大数字数据资产,其中包括电子消息、图像和多

媒体文件以及 IP 话音和视频 IP 流。

复杂性与日俱增

随着存储这些信息的基础架构日趋复杂,保护这类信息的挑战变得更加严峻。如

今信息在多个位置站点和远程办公室进行备份和归档。甚至在一个数据中心内,异构

的基础架构(包括服务器、存储、网络以及专门的应用程序和工具)也加重了数据保

护的负担,并且它们拥有自己的用户界面、策略、代理和报告工具,从而进一步提高

了管理复杂性。

要求越来越高

仅数据量和复杂性这两座“大山”就对当今的数据保护流程和技术施加了巨大的

压力。但是对于很多企业来说,对可用性的要求日益提高,因此迫在眉睫的需求是拥

有一款得心应手的解决方案。由于备份时间缩短了,因此在执行操作之前留给数据保

护的时间越来越短。关键应用程序需要更高的恢复点目标 (RPO) 和更短的恢复时间

目标 (RTO),因为延迟和中断会对业务产生巨大的影响。新的交易处理应用程序需要

更全面的恢复点,而在业务持续性方面日益提高的要求需要进行更快速的恢复。即使

在 RPO 和 RTO 的极限情况下,数据保护流程和技术也必须提供准确可靠的服务。无

法达到 RTO 和 RPO 目标会危及关键业务流程,违反 SLA,并使客户、企业同事以及

监管部门大为不满。备份和恢复故障会增加数据保护流程的风险并延误时机,同时会

加剧他们本应当防范的灾难。法律、法规和策略要求在隐私客户信息和公司专有信息

的整个生命周期内通过使用加密技术、最大限度降低处理和物理传输风险等方法来提

供保护,从而使得可用性要求更加复杂。随着遵从和查询要求变得越来越严格,而且

IT 风险管理从 IT 操作转变为企业战略重点,可用性和数据保护需求随之日渐提高。

Page 27: DR planning

政府法规强制企业制定数据保留策略和程序,并且能够证明备份服务水平的遵从状

况。

资源日显匮乏

最后,最重要的是,必须利用与其他紧急的关键业务应用程序和流程共享的人力

资源、基础架构和财务资源来应对所有这些挑战。大中型企业已将大部分存储预算投

入到数据保护方面,虽然大规模企业的投入在相对减少,但是它们所面临的需求却与

日俱增,更加紧迫。因此,随着IT 预算日趋减少,数据保护解决方案必须能够达到

事半功倍的效果。

数据保护解决方案:“缺少的中间环节”问题

在 RTO/RPO 和性价比要求的两种极端情况下,都可以找到相应的数据保护解决

方案。虽然低端解决方案也能提供一定的防护,但是许多主流关键业务应用程序需要

更佳的防护技术,只是并未证实更高端技术(如基于阵列的快照和复制)的高成本之

价值所在。

当前的技术存在防护缺口

企业应用程序涉及各种业务价值及恢复点和恢复时间目标。一方面,优先级较低

的企业内部网和员工门户可以容忍较低的可用性。但是优先级较高的 ERP 和其他交

易处理系统必须能够瞬间进行恢复。大量的中间地带包括具有中间价值和重要性的应

用程序,如公司网站、财务系统、电子邮件和其他协作技术,以及部门应用程序。但

是在极端情况下紧密结合了传统的数据保护方法。在高端,昂贵的镜像、阵列快照和

复制技术可在几分钟甚至几秒钟之内恢复关键应用程序,而不会发生任何损失。在低

端,经济型磁带备份需要花费数小时甚至数天的时间。

Page 28: DR planning

中间应用程序迫使必须做出两难的抉择:要么使用昂贵技术,但浪费资源,要么

承受恢复延迟,但会对企业造成重大影响。

新技术可填补防护缺口

为了填补这个防护缺口,一些新技术应运而生,其性能和价格各异,通过应用直

接访问磁盘功能以及不断提高数据保护任务的经济有效性来解决现存的备份问题。这

些技术包括:

• 磁盘备份和虚拟磁带库 (VTL),可增强或取代传统磁带备份,以充分利用磁盘

性能优势并提高经济有效性

• 节省空间的快照和持续数据保护 (CDP) 解决方案,可确保以合理的成本为中

间优先级应用程序提供更高的性能

• 重复数据删除技术,对于远程站点以及数据中心内系统的备份,可显著降低网

络和存储成本

• 使用时间点副本的脱机快照和复制,然后进行备份以降低 RPO 风险和灾难恢

复风险

Page 29: DR planning

这些技术利用新的磁盘功能和经济性减少基本防护的成本,并将备份服务级别与

应用程序和信息优先级相对应。它们有助于实现 IT 风险管理的基本目标,并将风险

防范成本与信息资产风险调整后的价值相对应。

但是新技术增添了新的管理挑战

如果技术已经就位,那么 IT 经理可能考虑解决方案当中的“断层”问题。然而

新数据保护技术的数量和种类所带来的管理挑战令其技术优势黯然失色。这些新选件

需要以代理形式在受控服务器上使用多种支持技术,但是这会影响服务器和网络性

能,而且还需要对安装和维护工作进行管理。多个管理和用户界面也降低了员工的工

作效率。

异构供应商硬件和软件解决方案实际上势必会出现管理控制台之间的差异,这就

增加了人和培训负担,而且恢复期间也会浪费宝贵的时间。多个存储性能层使管理变

得更加复杂。例如,管理虚拟磁带库所需的流程与快照所需的流程截然不同。底层技

术的差异体现在不同的管理控制台上,经常需要强制员工“轮换”或在管理各个层的

数据保护流程时求助于专家

不同类型和优先级的信息也需要多种数据保护流程。备份和恢复策略、调度、恢

复流程和报告不仅增加了管理的复杂性,同时也带来了招聘、培训和员工利用率方面

的挑战。还有与一些新备份技术有关的问题,包括:

• 一些硬件数据保护产品的价位高,具有所有权限制

• 分散的数据保护方法侧重于应用程序而不是数据中心战略

• 支持新应用程序备份的高风险投资战略优于对当前业务的风险防范

• 侧重于功能的独立数据保护产品未集成到整个数据管理、安全和其他关键流程

中因此,尝试通过添加新 的备份技术来填补缺少的中间环节可能只会导致一个结

果,即新的管理、性能和预算问题会替换旧的成本/性能问题。

Page 30: DR planning

赛门铁克的集成解决方案:Netbackup 平台

全新的 Netbackup 平台中体现了赛门铁克的新一代数据保护理念,该平台有助

于应对管理挑战,提供了以下优势:

1.利用业界最为成熟可靠的 Lan Free 备份技术,通过存储区域网的光纤交换

式架构,进行对服务器数据的高速备份。

2.运用先进的磁带管理技术,保证光纤存储区域网中磁带数据的高度安全性以

及完全自动化的介质调度管理。

3.利用数据库在线备份技术,提供灵活的数据库备份策略供用户选择。

4.提供完善的备份报告机制帮助用户进行复杂备份环境下的备份历史数据统计

管理。

5. 结合 BESR/BMR系统快速恢复工具,打造从系统到数据到应用的全面保护解

决方案

6. 结合 Puredisk重复数据删除技术减少备份过程中的冗余数据占据宝贵的磁

盘空间

7. 通过对最新虚拟技术的支持,帮助客户管理好 Vmware环境下的数据备份

3.5.2 操作系统数据备份

深化实现国标容灾规范中第一级本地数据备份/恢复方案。

备份数据除了是应用级的文件和数据库数据,对于关键服务器,我们还应该考虑

备份服务器操作系统级的数据,包括操作系统、驱动程序、系统配置、应用程序、操

作系统及相关应用系统、驱动程序的补丁程序,相关的 TCP/IP、主机名、用户管理

信息、域信息等。在系统出现故障,修复硬件时,可以快速恢复操作系统级相关系统

信息和配置,避免单系统故障对数据的破坏。

Page 31: DR planning

利用裸金属恢复技术手段能够实现对操作系统级数据恢复,在系统级故障时,不

需有重新安装操作系统,通过恢复手段实现操作系统的安装和配置,包括操作系统、

驱动程序、应用程序、系统及应用补丁、系统及应用配置,15-60分钟恢复。

3.5.3 备份数据异地保存

升级实现国标容灾规范中第二级到第四级异地数据备份/恢复方案。

对核心数据实现备份数据的异地保存机制。对于核心数据除了实现本地备份外,

还要实现备份数据的异地保存,既备份数据在本地有副本,同时还要定期、定时拷贝

一份,送到异地数据中心实现保存。

备份场地是灾难恢复所需的、支持灾难备份系统运行的建筑、设备和组织,包括

介质的场外存放场所、备用的机房及工作辅助设施,以及容许灾难恢复人员连续停留

的生活设施。

通过备份软件的裸金属恢复模块、磁带异地容灾出库模块,对所有关键业务系统

的主机,做好完善的数据备份,特别是做好操作系统备份、文件系统备份、数据库系

统文件备份、数据库数据文件备份、相关的核心应用程序备份;建立好完善的备份/

恢复机制和远程磁带保管机制。

Page 32: DR planning

这也是未来实现远程数据备份的基础,备份中心与生产中心的数据初始化同步,

都是通过磁带备份恢复方式,实现一个同步起点,否则很难想象需要将本地和异地的

存储设备运往同一地点进行背靠背复制,或通过网络进行全同步的复杂程度和成本上

浪费。

3.5.4 备份数据异地恢复及验证

升级实现国标容灾规范中第二级到第四级异地数据备份/恢复方案。

在一套完整的本地数据备份和异地数据保存的机制建立的基础上,可以考虑在备

份中心

Page 33: DR planning

3.6 第四步,存储整合

3.6.1 集中存储及虚拟化管理设计

数据中心应考虑将系统级程序与应用程序、数据实现存储的物理隔离,既将系统

程序存放与主机内置磁盘盘,应用程序和数据,应尽可能的从内置磁盘中分离出来,

存储在 SAN中的存储中,这样能够实现对核心应用程序和数据实现快速的实时同步。

存储虚拟化的核心产品如 Storage Foundation卷管理系统可以将存储环境中的

磁盘划分为不同的组并进行分区,合并不同的 RAID,分配空间,处理操作错误,跟

踪进程,分析性能,为管理员优化存储资源提供图形界面。在卷管理的作用下,分散

在各处的不同厂家的存储设施被整合成一个单一的存储池,业务部门和员工可按照容

量、响应时间、成本和备份频率描述各自的存储需求,系统管理员按照他们的不同需

求分配存储空间,从而优化现有存储资源的使用。在利用卷管理构建的虚拟化存储环

境中,系统管理员不必关心后端存储设备,只需专注于管理存储空间。几乎所有的存

储管理操作,如系统升级、建立和分配虚拟磁盘、改变 RAID级别、扩充存储空间等

Page 34: DR planning

都可自动实现,同时可以通过一台集中管理服务器来管理所有平台上的磁盘,逻辑卷,

文件系统等,使得集中存储管理变得轻松简单。

3.6.2 集中存储及虚拟化管理所达到的特点及好处

3.6.2.1 提高存储系统的可靠性

支持动态在线地对逻辑盘进行调整,这项功能对于企业系统非常重要;通过

Storage Foundation,企业信息管理者可以随时根据应用系统的需要,增加或缩减相

应的存储空间,或将一个应用系统中剩余的存储空间调配给其他存储空间紧张的系

统,并在这个过程中保证业务系统的不间断运行。

3.6.2.2 提高存储系统的性能

对于一个企业级的系统而言,性能因素所占据的重要位置。卷管理虚拟化技术提

供了一系列领先的核心技术用于优化符合企业应用特点的存储性能;而且可以在线的

建立从应用到底层磁盘的深度映射关系,及时发现 IO热点瓶颈所在并可在线进行迁

移优化和调整。

Page 35: DR planning

3.6.2.3 动态分级存储

传统的技术无法做到把文件从一个卷迁移到另一个卷而不影响应用程序。比如,

在 UNIX 服务器上,一个卷加载在 mnt1目录下,另一个卷加载在 mnt2目录下。当把

一个文件从一个卷(mnt1)迁移到另一个卷(mnt2)后,该文件的访问路径名也随之发生

改变。对应的应用程序也必须停掉,进行配置修改后才能对迁移后的文件进行访问。

先进的卷管理虚拟整合技术提供动态存储分级(DST)功能可以很好的解决这个问

题, 既保持对应用程序透明,又能在不同级别的存储之间根据预定义好的策略动态

进行数据迁移。

把不经常访问的数据部署在较低成本的存储阵列中,把经常访问的数据放在高级

别阵列内,综合发挥高端阵列性能优势与低端阵列的成本优势,来减少总体存储成本、

提高存储使用效率、减低存储能耗。

3.6.2.4 通过快照功能,实现快速恢复

快照技术大量用于脱机应用或快速恢复,包括分析、统计等。相对于磁盘阵列快

照来说,卷管理虚拟整合的优势在于可以在不同品牌和档次的阵列间完成快照、并且

支持完整副本和节约空间的快照技术。

可以对往年的数据形成多个快照,考虑到成本,可以利用低端阵列或者旧的设备

来保存快照。既节省成本,又减少能耗。当需要使用旧的数据时,只需要简单地将快

照卷 mount到系统上,并启动相应的应用就可以使用了,恢复时间从几天减少到小时

级。极大地改善服务质量。

节省空间快照技术可以很好的利用到业务系统的日常维护之中。比如当做

Oracle数据库升级时,在进行升级前,只需对 Oracle软件所在的文件系统和 Oracle

数据卷分别做一份节省空间的快照,就可以放心地做升级工作了。万一数据库升级失

败,从快照卷进行恢复,将系统恢复到升级前的系统状态。这一恢复过程不超过 5

分钟。

Page 36: DR planning

3.6.2.5 简化存储管理的复杂性

尽管企业的存储结构和相关组件异常复杂,但通过直观的图形化管理工具,可以

帮助用户轻松地对各种存储设备的存储资源,对异构的存储设备环境提供了最佳的支

持,用户无需再将精力花费在学习各种硬件设备专有的管理命令和各自独有的存储算

法,提供了图形化的界面和易用的管理向导,帮助用户在一个统一的平台上管理企业

信息服务系统的存储资源

3.7 第五步,本地服务器整合

在传统的高可用集群架构中,通常采用一备一的架构。其中一台服务器作为备机

不提供服务,我们称之为单活模式,这种配置下的服务器使用效率只有 50%。即使

有些高可用系统采用双活模式,在两台服务器上同时运行业务系统,这种情况下的服

务器使用效率仍然是 50%。我们假定一个业务系统需要 8个 CPU来运行,在单活模式

下我们需要配置 2个 8CPU的服务器来实现一个业务系统的高可用;在双活模式下,

则需要配置 2个 16 CPU的服务器才能实现两个业务系统的高可用,因为一旦一台主

机出现故障,另一台主机将同时承载两个业务系统。在双活模式下实际使用的只有

16个 CPU,另外 16个 CPU处于闲置状态,所以其使用效率仍然只有 50%。 双活模式

带来的好处只是节省了机房空间而已。

高级集群技术如 Symantec Veritas Cluster Server支持在一个高可用集群中多

达 32个服务器。实现 N+M配置模式切换,其中 N表示有多少台服务器运行业务系统,

M表示有多少台备机。比如 4+2配置,4表示有 4台服务器运行业务系统,2表示有

两台备机。当一台服务器出现故障时,其上运行的业务系统将切换到两台备机中的一

台。这种架构又称为 2备 4。对于 2备 4的配置模式,服务器使用效率为 67%,相对

1备 1模式,服务器的使用效率提升了 17%。

大集群 N+M配置模式是基于其灵活的高级切换策略,这些切换策略实现在一

个大集群内灵活的部署业务系统并对它们的切换进行精细控制,根据具体需求配置不

同类型的 N+M集群架构。

Page 37: DR planning

很多数据中心开始使用虚拟主机软件来提高服务器的利用率,本地集群技术应该

能够运行在 VMWare环境提供高可用性支持。

3.8 第六步,实现远程实时数据保护

如果考虑部分核心数据,需要实现实时的数据备份,既 RPO为 0的高数据备份要

求,我们建议建立同城(短距离)数据备份中心,在同城数据备份中心,搭建硬件平

台包括相关的服务器和存储,但服务器和存储的级别、档次可以低于原数据中心。

3.8.1 远程镜像

在同城数据备份中心与原数据中心之间搭建 SAN网络,建立数据中心与数据备份

中心相关存储的镜像映射关系,实现数据中心核心数据与数据备份中心数据的实时同

步。

在通过 SAN的支持,DWDM的拓展,光纤网络可以扩展到 100公里或更远,镜像可

以在较远的两个数据中心的磁盘上建立。但由于镜像系统是以同步方式实现的,受到

距离、光纤协议、和相关协议转换的影响,同步方式会影响本地服务器的性能,所以,

一般建议在<80公里的同城数据备份中心中使用。

基于 SAN的镜像,在数据实时备份实现中,使用范围较广,支持所有的类型数据

同步,包括文件数据、数据库数据、裸设备、应用配置文件、应用程序、库函数等,

可以实现一切数据的实时备份。

Page 38: DR planning

3.8.2 Symantec远程镜像数据容灾原理

Symantec建议利用 VERITAS Storage Foundation系列软件的镜像技术,来构

建容灾方案。利用 VERITAS Storage Foundation的镜像技术构建容灾系统是非常简

单的,它只有一个条件,就是将生产中心和灾备中心之间的 SAN存储区域网络通过光

纤连接起来,建立城域 SAN存储网络。然后,我们就可以通过 Storage Foundation

提供的非常成熟的跨阵列磁盘镜像技术来实现同城容灾了,容灾方案的结构如下图所

示:

Page 39: DR planning

从镜像原理上讲,在城域 SAN存储网络上的两套磁盘系统之间的镜像,和在一

个机房内的 SAN上的两个磁盘系统之间的镜像并没有任何区别。

利用裸光纤将生产中心和灾备中心的 SAN网络连接起来,构成城域 SAN网络以

后,利用 VERITAS Storage Foundation的先进的逻辑卷管理功能,我们就可以非常

方便的实现生产中心磁盘系统和灾备中心磁盘系统之间的镜像了。如下图所示。

Page 40: DR planning

我们可以看到,利用 VERITAS Storage Foundation,我们可以创建任意一个

逻辑卷(Volume)供业务主机使用,实际上是由两个完全对等的,容量相同的磁盘片

构成的,两个磁盘片上的数据完全一样,业务主机对该 Volume的任意修改,都将同

时被写到位于生产中心和灾备中心的两个磁盘系统上。

采用这种方式,生产中心的磁盘阵列与同城容灾中心的磁盘阵列对于两地的主

机而言是完全同等的。利用城域 SAN存储网络和 VERITAS Storage Foundation镜像

功能,我们可以非常轻松的实现数据系统的异地容灾。并且消除了复制技术(无论是

同步还是异步)的切换的动作,从而保证零停机时间,零数据损失的实现。

3.8.3 磁盘阵列同步复制原理及局限性

在同城的容灾方案中,基于磁盘阵列的同步复制方案,也是较为流行的一种。

其具体原理如下:

Page 41: DR planning

以上的原理图清楚地指出了基于磁盘阵列的同步复制方案的原理,其原理适用

于所有类型的磁盘阵列间的同步复制原理。因此,我们可以看到,当生产中心的阵列

发生问题时,会产生如下一系列的问题:

1. 主机必须手工的将 I/O 路径切换到容灾中心的阵列上,这将导致无法避

免的停机时间和用户的业务停顿。

2. 阵列的切换操作,是直接在磁盘阵列上进行的,在发生磁盘阵列问题,也

就是在用户业务处于停顿状态的时候,找什么人来做这个操作(此操作磁盘阵列厂商

通常建议由厂商或是由资质的代理来做。),或是用户自己来做此操作,都是对操作人

员是非常严峻的考验。无形中也就增加了用户的风险。

3. 当整个过程进行到第 4或第 5步时,生产中心磁盘阵列突然发生故障,主

机将认为数据没有写入磁盘阵列,而实际上数据已经写入容灾中心磁盘阵列,一旦启

用容灾中心磁盘阵列,将导致数据不一致风险。

4. 如果用户选择的是在不同品牌的磁盘阵列之间实现镜像,基于磁盘阵列的

同步复制方案更是无能为力了。

因此,无论从容灾效果,还是从易操作,易管理的角度,基于磁盘阵列的同步

Page 42: DR planning

复制方案,都不是同城容灾(基于 SAN)的最佳选择。

3.8.4 操作系统镜像命令作用解释

我们都知道,类似于 AIX, HP-Unix 等操作系统,其本身体统如 mirror disk

的命令来实现镜像。同样是镜像,为什么不能作为同城数据容灾的方案呢?

1. OS 镜像最初为主机内系统盘镜像设计,用户防范主机的启动盘发生故障,

而对于大数据量的、跨多个光纤交换机、远距离的在主机之外阵列间的数镜像,其稳

定性,无第三方的测试报告,因此也无大型案例可以参考。

2. OS 镜像还有一个无法解决的问题就是,一旦镜像打破,再修复镜像时,

其重新同步,需要重新做全同步,对系统影响极大。我们可以认为,重新同步的时间,

跟系统停机的时间几乎没有什么区别。

3. 对于异构的磁盘阵列环境,OS不支持对不同品牌的多路径(主机到磁盘

阵列的光纤路径)管理。因为不同阵列厂商提供各自的多路径管理软件,而不同的多

路经管理软件是不能在同一主机上正常工作的,因此无法真正意义上实现异构磁盘阵

列间的镜像。

Symantec远程镜像数据容灾系统故障和灾难的响应

一个完整的灾备系统,除了在数据灾难发生时,能够完成灾备的使命,需要考

虑灾备系统本身的可维护性和可操作性,以及对系统尽可能快的恢复。下面,我们来

看一下,数据系统故障和灾难情况下,Symantec 的远程镜像容灾系统是怎样响应的。

3.8.5 当生产中心数据系统故障

生产中心数据系统故障意味着灾难,磁盘故障,链路故障,或者数据系统的计

划内停机时间,也就一切导致主机无法访问生产中心数据系统的情况。我们来看一下

我们推荐的容灾方案是如何响应的,见下图:

Page 43: DR planning

当生产中心的磁盘系统发生故障(灾难)时,由于同城容灾中心的磁盘是它的

镜像,所以操作系统会自动隔离生产中心的磁盘,转而对容灾中心的数据进行访问。

从上图我们看到,业务系统可以通过城域 SAN网络直接访问灾备中心的磁盘系统的数

据,而不需要有任何针对业务系统的动作。也就是说,生产中心磁盘系统的灾难,对

业务系统是透明的,应用和数据库不会因为生产中心磁盘系统的故障而停止;更重要

的是,因为应用和数据库不会因为灾难而异常中止,从而避免了发生数据库损坏(数

据一致性风险)的可能。

值得注意的是:整个过程对应用完全透明,不需要也不会中断业务系统的正常

运行。这是基于磁盘系统间复制技术构建的容灾系统无法实现的。

3.8.6 灾备中心数据系统故障以及生产中心和灾备中心 SAN链

路故障

灾备中心数据系统故障,以及生产中心到灾备中心的链路故障,我们都可以把

其看成是容灾部分的故障,其原理和后果与生产中的数据系统故障相同。都是导致了

镜像的破坏。而后,系统将自动的只与状态健康的磁盘阵列继续工作。整个过程对应

用完全透明。

Page 44: DR planning

3.8.7 故障修复后的恢复(远程镜像快速恢复)

磁盘系统故障修复之后,我们需要尽可能快的将远程镜像系统恢复起来,以确保

容灾的功能继续得以实现,同时,在整个镜像恢复的过程中,势必会对应用造成影响。

因为磁盘数据的同步,一定会造成 I/O的极度繁忙而导致应用性能下降,如果镜像恢

复无法快速完成,其后果跟系统应用停机也非常接近了。因此,如何快速有效的实现

镜像的重新同步,同样是一个容灾方案是否成功的关键因素。

传统的镜像技术(如 OS的镜像技术),在镜像链路被中断以后,中断的镜像会

被认为完全作废,在链路恢复以后,我们不得不将数据完整地从生产中心拷贝一份到

容灾中心。这种方式,对于用户的的应用是无法接受的。链路方面的故障如果经常发

生,我们就需要不断的重复将生产中心的数据全部同步到灾备中心的磁盘系统上,实

际上,这种方案不具有可实施性和可维护性,是不现实的。这也是什么主机厂商虽然

也有类似镜像功能,但不会用于容灾的的根本原因。

为了解决这个问题,VERITAS Storage Foundation提供了 DCO+FMR技术,其中

DCO(Data Change Object)是一种针对镜像的 Log技术,该技术允许 Storage

Foundation在镜像链路中断后记录逻辑卷的数据变化情况,以便在镜像链路恢复后,

由 FMR实现数据的增量恢复。所谓 FMR,其全称是 Fast Mirror Resync,意思就是“镜

像的快速再同步”,FMR是和 DCO技术对应的镜像快速恢复技术,利用 VERITAS Storage

Foundation 的 DCO和 FMR技术,我们现在可以不用再担心容灾系统本身的可维护性

了。利用 DCO和 FMR,我们的应对步骤如下:

1.一切故障,导致镜像被破坏。

2.生产中心的 Storage Foundation利用 DCO日志记录因业务数据的变化而变

化的数据块。

3.一旦故障被修复,Storage Foundation 的 FMR 功能模块,会根据 DCO 日志

记录的情况,将链路中断后更新的业务数据(变化量)同步到灾难端实现增

量更新。

4.镜像快速同步的过程中,用户的应用始终可以正常工作。

整个过程的发起,只需要执行一条命令即刻完成。整个过程的速度,由于只是

同步增量,时间远远小于整个数据系统的完全同步。从而大大减小对用户应用的影响,

这也是传统镜像技术如 OS镜像所以不具备的。

Page 45: DR planning

系统容灾方案结构和实现

根据上面的阐述,我们提出了在 SAN环境下,基于 Veritas Storage Foundation远

程镜像的数据容灾方案:

1. 生产中心与容灾中心通过裸光纤将两边的 SAN 环境联接起来。

2. 容灾中心增加一台磁盘阵列。利用 Storage Foundation 的镜像技术,建立

基于磁盘系统间镜像的容灾系统。

3. 每个使用需要容灾的数据的主机,都需要部署一套 Storage Foundation 系

列软件。

4. 如果距离较远,无法直接部署光纤联接,可以租用运营商光纤将生产中心和

灾备中心的 SAN网络连接起来。常用的技术有 DWDM技术。

5. 根据实际容灾需求,如果希望实现应用级容灾,需要在灾备中心布置和生产

中心处理能力相当的用于灾备的服务器系统。

利旧项目中,生产中心与容灾中心磁盘阵列性能差异问题:

生产中心与容灾中的阵列如果有较大的性能差异,在数据同步的技术范畴中,无

论是采用软件镜像还是磁盘阵列的同步复制,一定会产生整体性能受到性能差的磁盘

阵列拖累得情况。

基于磁盘阵列的复制技术,是无法对这种情况进行改善的。通常的方案就是让用

户退而求其次的进行异步复制。这不但增加了系统的复杂程度,数据一致性风险,还

导致了如果灾难发生,一部分数据将会丢失。

Storage Foundation 远程镜像中的“Reading Policy set”技术,可以实现将

读/写操作集中在性能高的卷(磁盘阵列上),低性能的阵列只负责些操作。在交易型

(读操作远远大于写操作)的数据库应用中,既能够保证生产中心和容灾中心磁盘阵

列上的数据同步,还能够大大提整体应用的性能。

Symantec远程镜像数据容灾方案的技术优势

和其他容灾方案相比,VERITAS容灾方案具有明显的优势,这些优势不仅仅表

Page 46: DR planning

现在技术实现方面,还表现在开放性、可维护性等各个方面。

零停机时间和零数据损失

由于 Storage Foundation 采用的是跨异构阵列的镜像技术,而镜像技实现原

理,就决定了在这种方式下,无论是哪一边的磁盘阵列由于物理故障停顿,都不会影

响数据的可用性而造成数据的损失,这从根本上实现了在物理故障的情况下,数据的

高度可用性。

故障修复后的快速重新同步

Storage Foundation 提供的镜像技术,是基于日志的镜像技术,无论由于主

机发生故障,还是由于镜像中的链路或是硬盘发生故障导致的镜像被破坏的情况,都

可以通过镜像日至得以快速恢复。这使得镜像恢复过程对系统的性能影响微乎其微。

跨磁盘阵列快照,实现逻辑错误快速恢复和容灾中心数据利用

Storage Foundation 提供基于卷,以及文件系统的多种快照技术,其逻

辑辑快照可采用少量磁盘空间,快速,多次的对文件系统,或者是卷作快照。因而,

当用户出现数据的逻辑错误时,利用快照就可以迅速恢复文件系统或卷。这在数据保

护的体系,大大的弥补了传统备份恢复保护方式速度慢的缺陷,从而把数据损失量降

到最低限度。

同时,数据快照还被广泛的利用在容灾中心数据利用方面,比如可以通过快照实

现数据备份、查询、测试等。

数据同步过程高度可控

Storage Foundation Remoter Mirror 提供完整的容灾命令集,在数据同步的过

程中,可以随时得知同步的进度,并可随时暂停、继续数据同步。

节约硬件采购成本

Storage Foundation 支持对不同品牌,不同型号的异构阵列做镜像,这可以

帮助用户方便的选择适应自身业务需求的硬件,从而获得最好的价格性能比。

同时,Storage Foundation 的 DMP(动态多路径)既能够管理异构阵列到主

机的多条光纤链路,也帮助用户节省了从阵列厂商处购买同类型软件(阵列到主机的

多路径管理软件)的成本。

Page 47: DR planning

Symantec远程镜像数据容灾方案的工程优势

ü 结构简单

基于镜像的容灾方案较任何一种容灾方案为简单。比如基于磁盘系统复制技术的

容灾方案,必须在磁盘系统内部专门配置相应的接口卡,使用该磁盘系统专有的复制

软件,才可以构建容灾系统。明显的,该方法增加了一个在非容灾系统中完全不需要

的环节,不仅增加了故障源,同时也增加了维护强度。事实上,基于主机的复制技术

存在同样的问题。

在一个使用逻辑卷管理的应用系统中,我们只是利用了其中最常用、最成熟的镜

像功能,就可以实现容灾,而不必像其他容灾系统那样增加很多不必要的环节。

ü 技术成熟

镜像技术是比任何数据复制技术更早使用于高可用系统的成熟的功能,这种功能已经

广泛应用于包括 IBM Mainframe、AS400、RS6000、HPUX、Digital Unix、SUN Solaris、

Linux、Windows等在内的所有服务器系统上,同时也被广泛用于磁盘系统内部作为

企业级解决方案,象 EMC、HDS、HP、IBM、SUN、Compaq等众多存储设备生产厂商,

都将镜像技术内置于其磁盘系统内部,用于对数据可用性要求最高的用户群。

ü 存储开放性

利用 VERITAS Storage Foundation的镜像技术,我们构建容灾方案的同时,还

构建起一个支持异构磁盘阵列存储虚拟化的平台。不再要求生产系统和灾备系统的存

储系统必须是同一个品牌的,对具体型号更没有任何要求,体现了存储平台选择的开

放性。由此,用户可以获得在存储平台选择上的主动权,避免被存储厂商“绑架”的

尴尬。

ü 技术的完整性

VERITAS Storage Foundation拥有一个容灾方案必须的所有技术特性,它不仅

可以提供可靠的镜像技术,实现跨磁盘系统的数据容灾,同时,我们可以利用 Storage

Foundation 的 DCO和 FMR技术,保证该容灾系统的可维护性。

ü 容灾系统的可视化管理

一个灾备系统和生产系统是一个整体,而不是两个孤立的系统,一个系统的可视

化管理工具,有利于管理者将两个系统有机的结合起来,而不是分别处理两个独立的

Page 48: DR planning

系统。

VERITAS Storage Foundation VEA 提供企业范围内全局的逻辑卷管理视图,通

过任何一台安装有 Storage Foundation或者其 Console的系统,我们就可以访问我

们想要访问的系统的(被授权)逻辑卷,这意味着,我们可以将同一个应用的生产系

统和灾备系统的逻辑卷置于同一个管理视图中,从而实现对生产中心和灾备中心存储

的统一管理。VERITAS VEA管理界面丰富,下图为其中一个管理界面,仅供参考。

ü 应对灾难,应用不中断,数据不丢失

VERITAS建议的容灾方案,不会因为生产中心(或者灾备中心)磁盘系统的故障和灾

难而导致应用和数据库的异常中止,这不仅避免了对应用系统正常运作的影响,还避

免了发生数据库损坏的可能。

相比较而言,如果采用数据复制的方式(无论是基于磁盘系统的硬件复制方式还是基

于软件的数据复制方式),都需要在生产中心故障时对数据系统进行切换操作,反而

造成业务的停顿。另外,由于在灾难发生时,数据库系统的复制是即刻停止的,数据

库系统没有经过正常的 Shutdown,所以不仅不可避免的导致部分交易的损失,甚至

还有可能导致数据库的损坏。

ü I/O效率最佳

Page 49: DR planning

从性能上来分析,在操作系统一级进行镜像,数据会在同一时间写入到两地的磁

盘。数据可写入过程是两组并行的操作,即本地写和完成信号返回+异地写和完成信

号返回。

而相比较而言,数据复制技术需要通过以下 4个步骤才算写操作完成:

1.数据先有操作系统写入本地磁盘系统

2.磁盘系统将数据通过链路复制到异地系统

3.异地磁盘系统完成写操作,返回信号给本地磁盘系统

4.本地磁盘系统返回信号给操作系统

明显的,这个过程和直接数据镜像相比,把原先并行的 2组步骤变成了纯串行的

4个步骤,并且需要 SCSI到复制协议的转换过程,无论在流程上和反应时间上都会

比直接镜像造成更多的延时,对应用系统有更大的影响。

另外,在逻辑卷这个层面,我们可以根据需要对镜像的数据灵活设置,我们不需

将所有磁盘进行镜像,而只需镜像必要的逻辑卷(Volume)。这种灵活性在实际使用

过程中将大大减少数据远程复制的数量,从而避免对系统不必要的影响。

Symantec远程镜像数据容灾方案对系统性能的影响

大家都比较关心容灾系统建立以后对原有业务系统性能的影响,考察容灾系统对

业务系统性能的影响,主要从两个方面衡量,一是 CPU资源的消耗,二是 I/O,特别

是写操作的延迟效应。

ü CPU资源消耗

采用主机端的软件镜像技术,对 CPU资源的损耗,实际上是微乎其微的,但很多

时候被磁盘系统厂商人为的夸大了。具体的事实我们可以通过简单的测试得到,我们

可以设置这样一个测试,就一目了然了:

1)在测试系统上,往一个没有镜像的逻辑卷 Copy一个大文件,察看 CPU使用率;

2)在测试系统上,往一个有镜像的逻辑卷上 Copy一个大文件,察看 CPU使用率。

事实上,处理镜像需要的 CPU时间是非常非常小的,原因是磁盘 I/O操作的速度

是毫秒(ms)级的,磁盘系统 Cache I/O的速度是受限于光纤通道的 100-200MB

(8bit*10ns)带宽和距离(15公里 == 0.1ms)的,而相反的,高端主机总线的宽

度一般是 64-128Byte,甚至更高,主机 CPU的处理速度更是在千兆的水平(ns级),

所以 I/O对主机 CPU的消耗往往都是可以忽略不计的,如果说需要关心的话,也主要

Page 50: DR planning

针对象 RAID-5这样的技术(需要一定量计算,从而消耗主机的 CPU资源),而像镜像

这样的技术,是几乎不需要消耗 CPU时间的。

ü I/O的延迟效应(特别是写操作的延迟效应)

采用 VERITAS Storage Foundation的镜像技术构建容灾系统,其对系统 I/O的

延迟效应要小于任何一种数据复制技术,不管是基于磁盘系统的硬件数据复制技术,

还是基于主机软件的数据复制技术,这在上一节中已经阐述。

这里我想要补充的是在整个容灾系统中,对业务系统的性能的影响最大的不是任

何一种技术所产生的负面作用,而是“距离”,正如前面提到的,在 Cache命中率较

高的系统中,距离对写操作的影响较大,这和光的传播速度有关,光在 150公里距离

上的一个来回需要 1ms,在 15KM距离上一个来回需要 0.1ms,我们列出一个对照表,

供大家参考。本对照表不包含设备协议转换和光在光纤中的折射等因素。同时,我们

知道,100MB光纤对应的速度是 ns级的。

距离 光传输距离 传输时间 说明

15 km 30 km 100us 同城容灾中心的距离级别

150 m 300 m 1us

15 m 30 m 100ns 一个机房的内部距离

1.5 m 3 m 10ns 一个主板的内部距离

本地 Cache写的时间 ns~us级

本地磁盘写的时间 us~ms级

我们的结论是,只要是数据复制方式的同步方式能够做的系统,采用镜像方式

也一定能做,而且会做的更好。

3.8.8 远程复制

在同城数据备份中心与原数据中心之间只有 TCP/IP网络时,建立数据中心与数

据备份中心相关存储上数据基于 TCP/IP的复制映射关系,实现数据中心核心数据与

备份中心数据的数据复制同步。只有基于主机逻辑卷(Volume),并采用 Log技术作

技术保障的数据复制方式,才是在应用上有实际意义的方式,能够完全保证异地备份

中心数据(库)的完整性。

Page 51: DR planning

利用远程复制方式建立数据实时备份,可以保证在本地系统数据丢失时,异地存

在一份与本地数据完全一致的数据备份。但利用 TCP/IP网络传输方式建立这样一个

系统,必须考虑“性能”这个因素。

实时数据备份的性能,主要表现在:

1) 本地和异地磁盘 I/O性能

2)数据复制网络带宽

3)中间协议转换时间

4)数据中心与备份中心之间的距离

其中对实时数据备份的性能影响较大的是数据复制网络带宽。

理论值估算,如果网络为 E1:2Mbit/Sec既每传输 10G Byte数据需要大约 12小

时,考虑到带宽实际利用率小于 80%,实现 10G Byte数据需要 15小时才能完成数据

复制。

Page 52: DR planning

3.9 第七步,实现远程集群容灾切换

本地服务器集群环境整合后应能够自动平滑地使数据级容灾升级到应用级容灾。

只需在灾备中心部署与生产中心类似性能的服务器就可以了。灾备中心的主机可以在

线地加入到集群中,无需停掉应用系统。

所谓应用级容灾指的是不仅仅将数据搬到容灾中心,而是保证在生产中心发生灾

难或者生产中心需要维护时,应用在管理员的确认下,可以很快速地在容灾中心运行。

企业级高可用软件解决方案,可以提供全面的高可用性管理,把计划内和计划外

的停机时间降到最低。 应该支持生产中心应用快速切换到容灾中心。同时监控两个

数据中心的应用系统状态,一旦发现生产中心有问题,及时提示管理员,如果管理员

确认发生了灾难需要接管,通过控制台快速地在容灾中心将应用启动。

一般对于简单的少量的应用可以手工完成在容灾中心的启动,但是对于大量的、

复杂的应用环境,人工操作是极其复杂的,甚至是无法完成的,非常需要这种自动化

工具的帮助。例如 Symantec Veritas Cluster Server (GCO)解决方案。

Page 53: DR planning

3.10 第八步,建立数据恢复消防演习机制

在运程数据镜像或远程数据复制完成,就可以实现相关的数据恢复消防演习。

这是保证备份数据有效唯一的、最有效的手段,整个数据恢复消防演习在备份中心完

成,如对于数据库的恢复测试,步骤如下:

1) 对数据库实现快照;

2) 启动数据库;

3) 启动相关的应用;

4) 通过压力程序或测试程序验证应用。

完成后的数据中心容灾结构如下图:

Page 54: DR planning