清华大学信息技术研究院 清华 - 威视数据安全研究所 2014年9月
DESCRIPTION
灾难恢复 从技术到管理. 清华大学信息技术研究院 清华 - 威视数据安全研究所 2014年9月. 侯海波. 内容. 灾难恢复管理概述 概念、背景、价值、 …… 灾难恢复技术概览 高可用性、备份、复制、远程集群 持续数据保护、其他关键技术 …… 灾难恢复实施概述 管理体系要素 项目实施过程. 一、灾难恢复管理概述. 灾难恢复 “ 将信息系统从灾难造成的故障或瘫痪状态恢复到可正常运行状态,并将其支持的业务功能从灾难造成的不正常状态恢复到可接受状态的活动和流程 ” 。 —— 《 重要信息系统灾难恢复指南 》 , 2005 年 4 月,国信办 - PowerPoint PPT PresentationTRANSCRIPT
清华大学信息技术研究院 清华 - 威视数据安全研究所
2023.04.21
灾难恢复
从技术到管理
侯海波
清华 - 威视数据安全研究所
内容
灾难恢复管理概述 概念、背景、价值、……
灾难恢复技术概览 高可用性、备份、复制、远程集群 持续数据保护、其他关键技术……
灾难恢复实施概述 管理体系要素 项目实施过程
清华 - 威视数据安全研究所
一、灾难恢复管理概述 灾难恢复
“将信息系统从灾难造成的故障或瘫痪状态恢复到可正常运行状态,并将其支持的业务功能从灾难造成的不正常状态恢复到可接受状态的活动和流程”。 ——《重要信息系统灾难恢复指南》, 2005 年 4 月,国信办
灾难恢复管理 利用技术、管理手段以及相关资源,确保已有的关键数据和关键
业务在灾难发生后在确定的时间内可以恢复和继续运营的过程,是一项集技术和管理于一体的系统工程。
清华 - 威视数据安全研究所
高度依赖 业务系统对信息技术的依赖性越来越强
无论是政府部门、企业还是个人 信息系统停机往往导致业务中断 信息数据已成为企业的生命源泉
同时,信息系统的复杂性带来更大的脆弱性 越来越多的漏洞
清华 - 威视数据安全研究所
风险变大 调查显示
20% 的企业平均每五年就会遇到影响公司运营的意外情况 越来越多的威胁
自然风险:地震、火灾、 水灾、气象、疾病、战争、…… 人为风险:错误操作、黑客攻击、病毒发作、员工恶做、…… 技术风险:设备失效,软件错误,通讯中断、电力失效、……
最近事件 美国 911 事件、中国“非典”疫情、印度洋海啸、…… 莫斯科大停电、伦敦地铁爆炸、……
清华 - 威视数据安全研究所
后果严重 美国明尼苏达大学:如果在发生灾难后
的两个星期内,无法恢复公司的业务系统, 75% 的公司业务将会完全停顿, 4
3% 的公司将再也无法开业 IDC 统计:美国在 2000 年以前的十年
间发生过灾难的公司中,有 55 %当时倒闭,剩下的 45 %中,因为数据丢失,有 29 %也在两年之内倒闭,生存下来的仅占 16 %。
Gartner Group :在经历大型灾难而导致系统停运的公司中有 2/5 再也没有恢复运营,剩下的公司中也有 1/3 在两年内破产。
……
业务 每小时停机损失
证券经济类 645 万美元
信用卡销售授权 260 万美元
航班预售 9 万美元
ATM 服务 1.5 万美元
…… ……
突发事件造成的行业服务损失情况数据来源: Strategic Research Corporation
清华 - 威视数据安全研究所
最后防线 传统信息安全技术无法抵御大的风险和威胁
例如地震、洪水、战争等等 传统信息安全技术对付传统风险具有局限性
病毒、黑客攻击等造成的业务中断时间可能过长,导致需要切换 保险无法保证企业的生存
无法找回用户数据。尽管可以挽回部分损失——————————————————————————————— 信息安全概念也在不断发展
COMSEC (保密,通信保密) INFOSEC (保护,保密性 / 完整性 / 可用性) IA (保障, PTO*PDRR*) ……
清华 - 威视数据安全研究所
实施价值 减少风险损失
2000 年 2 月 7 日美国 8 大知名网站瘫痪损失 12 亿美元 ebay : 1999 年 6 月 12 日 : 22 小时故障,损失 : $3M-5M + 26% 股票市值
损失 AT&T : 1998 年 4 月 13 日 : 6-26 小时故障,损失 : $40M 用于折扣
确保持续发展 9.11 生存启示( 1200/400/6% )
满足商业需要 服务于全球客户的复杂性,以及消费者的高期望值 据介绍是否引入有效的 BCM 机制,已经成为一些发达国家政府机构与企
业选择合作伙伴或供应商的一个必要条件——————————————————————————————— 已经成为现代企业的管理战略之一 Meta 预测:在全球大公司中用于灾难恢复管理的投入从 4% 上升到 7%
清华 - 威视数据安全研究所
灾难恢复 - 未来法规遵从的要求 法规遵从——法律的高度的要求
2004 年,国际“法规遵从年” 国际,超过 16000 部法规
沙宾法案 Sarbanes-Oxley Act 、全美证券交易商协会行为规定( NASD 3110 )
美国健康保险便利和责任法案( HIPAA )、联邦条例 21CFR第 11 部分 FDA 、 NYSE 、 AMEX 、 FERC 、 ……
国内 《国家信息化领导小组关于加强信息安全保障工作的意见 》
( 中办发 [2003]27号 ) 《关于做好重要信息系统灾难备份工作通知》 ( 信安通 [2004]11号) 《重要信息系统灾难恢复指南》( 2005.5.26 广东南海) ……
清华 - 威视数据安全研究所
二、灾难恢复技术概览
– 高可用性技术– 数据备份技术– 数据复制技术– 远程集群技术– 持续数据保护技术– 其他关键技术
清华 - 威视数据安全研究所
系统停机原因及防护技术
•时间点复制•备份
•数据仓库•远程备份•远程复制•系统热备
•高可用性技术•磁带备份•数据复制•时间点复制
人为过失32%
计算机病毒7%
硬件或系统故障44%
站点灾难3%
软件故障14%
•时间点复制•备份
清华 - 威视数据安全研究所
灾难恢复技术思路 -3R
冗余性( Redundancy ) 灾难恢复实现的基础
可恢复性( Recoverability ) 确保冗余的内容能在灾难发生后可以使用
远程性( Remoteness ) 确保能够抵御灾难的影响
清华 - 威视数据安全研究所
高可用性技术
设备冗余技术
路径冗余技术
系统冗余技术 技术特点:
减少停机时间
保护内容全面
本地的保护措施
基础容灾技术
切换是关键
SAN Fabric
清华 - 威视数据安全研究所
数据备份技术 Host-Based 备份架构 LAN-Based 备份架构 LAN-Free 备份架构 Server-Less 备份架构 Zero-impact 备份架构 相关技术
数据恢复 备份策略 虚拟磁带库 压缩技术
……
技术特点 数据剥离 ->离线 可以抵御逻辑错误
抵御大灾难需要 远程备份或传输
适合业务 对数据丢失不敏感 对应用停机不敏感
其他容灾技术的基础
LAN
NT
UNIX
存储区域网
清华 - 威视数据安全研究所
数据复制技术 基于存储子系统数据复制 基于存储网络层数据复制 基于卷管理器数据复制 基于应用数据复制
技术特点 数据在线状态 需要配合时间点技
术抵御逻辑错误 抵御大灾难需要
远程数据传输 适合业务
数据很重要 远程应用集群基础
清华 - 威视数据安全研究所
远程集群技术 主要技术架构
1+ 1 或 N+ 1 OS- Based 或 Application- Based
全冗余架构实现集群 冗余服务器、冗余应用、冗余信号传输路径、冗余数据访问路径、……
切换是关键 应用切换 数据切换 访问地址切换
保护应用的运行状态
清华 - 威视数据安全研究所
持续数据保护技术 “持续数据保护是一套方法,它可以捕获或跟踪数据的变化,并将
其在生产数据之外独立存放,以确保数据可以恢复到过去的任意时间点。持续数据保护系统可以基于块、文件或应用实现,可以为恢复对象提供足够细的恢复粒度,实现几乎无限多的恢复时间点” —— SNIA-DMF-CDP( SIG)
★数据丢失量少★抵御逻辑错误★更容易恢复★备份窗口小★主机影响小
清华 - 威视数据安全研究所
DR 技术比较
保护方式 数据丢失量( RPO)
系统恢复时间( RTO)
高可用性 减少停机时间 本地、需要配合其他技术实现灾难恢复
备份 / 恢复 离线数据 周→天→小时 周→天→小时
复制 / 恢复 在线数据 分钟→秒 天→小时
全局集群 在线数据和系统 分钟→秒 小时→分钟→秒
持续数据保护 在线数据 分钟→秒 小时→分钟→秒
清华 - 威视数据安全研究所
三、灾难恢复实施概述
管理体系
建设过程
最佳实践
相关标准
Process
People
Product
Plan
需求分析确定策略
编制计划测试部署
维护更新项目启动
实施建设
技术决策
最佳实践
成本决策
目标
……
政策
法规遵从
管理
现状
管理体系
建设过程可用
技术
清华 - 威视数据安全研究所
灾难恢复管理体系模型
Process
People
Product
Plan
清华 - 威视数据安全研究所
管理体系要素 - 流程( Process ) 日常维护和预警 应急响应 、评估与声明 业务紧急接续 、过渡期处理 重新安置及启动 ……
—————————————————————— 按照规范和最佳实践:
预防灾难,降低风险发生的概率 高效行动,降低灾难造成的损失
清华 - 威视数据安全研究所
管理体系要素 - 团队( People ) 领导组
业务恢复操作组
技术功能操作组
外部协调和联系人员
设备和软件供应商联系人
外部协作机构
……
————————————————————————————
人是流程的执行主体和关键因素
合理架构、职责、人选、后备、培训、管理
清华 - 威视数据安全研究所
管理体系要素 - 设施和技术( Product)
设备 包括能够保证数据恢复和业务运行的信息系统基础设施 主机、网络、卡车、打印机、……
场地 指挥、发布、系统、办公、…… 冷场地 / 温场地 / 热场地 / 移动场地 / 商业场地 / ……
技术和方案 高可用性技术 数据备份与恢复技术 数据复制和迁移技术 远程集群技术 其他关键技术
—————————————————————————————技术决策要素: RTO 、 RPO 、 保护距离、 TCC 、保护对象、 ……
清华 - 威视数据安全研究所
管理体系要素 - 计划( Plan)(例)
目标和范围
组织和职责
联络与通讯
紧急响应流程
恢复及重续运行流程
灾后重建和回退
保障条件
附录
简明扼要
清华 - 威视数据安全研究所
灾难恢复建设建设过程模型
风险分析和 BIA
确定策略
编制计划测试部署
维护更新项目启动
实施建设
清华 - 威视数据安全研究所
实践考虑
时间
$$$
t0
业务成效
解决方案成本
t1
$1
t1= 恢复时间目标 (RTO)
清华 - 威视数据安全研究所
实践考虑 自建灾难恢复中心:
模式 1 :本地站点生产,远程站点开发和测试
模式 2 :在远程站点进行磁带备份,无需运送磁带
模式 3 :在各站点间平衡应用负荷
模式 4 :在远程站点设置数据仓库并提供决策支持
等等……
服务外包
专业规划、能力维护、测试演练、……
清华 - 威视数据安全研究所
SHARE78模型
Tier7-接近零或是零数据丢失,远程数据镜像,并且业务环境可进行高自动化的业务接管
Tier6-接近零或是零数据丢失,远程数据镜像保证数据的完整性和一致性
Tier5- 软件级的,两地点 - 两阶段提交(交易完整性)
Tier4-批量 / 在线的数据库镜像或日志的传输,或重复的时间点拷贝
Tier3-电子链接传输
Tier2-PTAM 卡车运送 + 热备份站点
Tier1-PTAM 开车运送访问
专门的远程灾备中心
可用的备份中心
时间点备份
15分钟 1-4小时 4-8小时 8-12小时 12-16小时 24小时 好几天
恢 复 需 要 的 时 间( RTO)
费用
清华 - 威视数据安全研究所
《重要信息系统灾难恢复指南》
用户灾难恢复系统组成
数据备份系统灾难恢复预案 备用网络系统
备用数据处理系统
备用基础设施
技术支持能力
运行维护管理能力