WatchStor.com — 领先的中文存储网络媒体 | 51CTO旗下网站

新闻资讯 > 灾难恢复 > 正文

BCM2009:业务连续性与灾难恢复

watchstor.com  佚名丨2009-11-09 00:49 标签:灾难恢复 备份恢复 

大家好!非常高兴把我们日立系统方面的技术和经验与大家做一个分享。
谈到容灾,我们想到自然灾害,还有一些其他灾害,会给我们带来很大的损失,这张表是我国一家公司统计的数据,像电力中断对我们的影响很大,另外像地震、火灾、雷雨等等。这些都影响了我们正常的业务系统,所以我们现在要建立一套完整的容灾系统。
从国内国外的法律法规来看,我罗列的是金融行业,像人民银行、证监会等等都发布了很多文件。像银行业信息系统灾难恢复管理规范,对国内大中型银行企业有了明确的要求,要求全国性的大中银行要建立同城和异地的容灾系统,同时对核心的业务系统要建立应用级的容灾系统。

像银监会发表的文件,就要求我们国内市场机构一定要进行容灾系统的演练,保证灾难时能够正常按照流程切换。这里主要是对我们国内法律法规进行了罗列。从中国容灾市场来看,我们引用了IDC的统计,可见中国容灾市场很大。目前金融行业占市场容量42%,所以金融市场容灾的机会还有很多。

从08到13年的增长率达到27%,从容灾的市场发展来看,给我们提供了很多机会。特别是很多存储厂商,一些容灾咨询厂商。我们来看一下当前容灾建设过程中,我们要面临的一些挑战,实际是我们建设过程中要做的很多工作。
首先,容灾建设第一点要满足我们企业内部对业务连续性的要求,因为业务的中断给一个企业带来的结果就是很大的经济损失,可能很多企业还有社会舆论损失等等。第二是法规的尊崇,像前面看到的,金融行业有很多的法律法规要求我们企业来做容灾的建设。风险控制对每一个企业都非常重要的。
后面像策略、运行管理等,在容灾系统建设过程中必须要完成的工作。当然很重要一点,还有灾备的成本,因为我们经常谈到,容灾系统建设很大一部分的投资可能不能跟我们生产对比,很多客户可能认为,我这种投资一直是在闲置,这里面就要考虑到灾备的成本和我们的解决方案,还有容灾建设目标之间的平衡。
如果我们对容灾指标,像IPO的要求很高的话,我们一定会采用比较先进的解决方案,这种先进的解决方案给我们带来的结果是成本的不断提高。这个平衡就需要我们通过BCM咨询的方式给我们每个客户提供一个很好的平衡点,既能够保证我们客户实现关键业务系统容灾,又能够让我们客户可以承受对整个容灾系统建设的成本。
对于一个完备的容灾系统建设,当然是有一整套完整的方法,这是我们HDS公司的工程模型,也把我们完整的容灾系统建设分成若干建设,像设计阶段,运行阶段,灾难切换等等,之前很多专家都谈到,像分析阶段,还有开发,像DIP的开发、更新,还有切换等,这就不再强调了。
我们可能比较偏重于方案设计、实施方面,我还要强调一点,我们做容灾系统很重要的一方面,我们怎么样把生产数据复制到我的容灾中心,能够保证我的数据当灾难时可以正常使用,这是我们最核心的地方。

后面我会结合我们HDS公司在容灾建设方面的技术和经验与各位做个分享。这是容灾系统建设的生命周期,可以看到,像前期风险分析、业务影响分析、灾备策略制订等等,我们容灾系统建设过程中占很大的比重。灾备系统建设和灾难恢复开发并不是很大一部分,很重要一部分是容灾系统建设完毕之后,对整个容灾系统的维护,这是很重要的。
下面我会结合我们HDS公司的容灾技术与各位做个介绍。HDS一直从事于存储产品和技术的研发,目前我们在金融行业,像国内的五大银行,在开放系统平台方面,不管是高端存储还是终端存储,占有率非常高,都超过70%。像中国银行、工商银行,这两个银行两地三中新容灾系统架构都是基于我们存储平台做的。
它主要应用的容灾技术就是我要讲的,首先是系统内部镜像软件,远程复制软件,最后是3DC技术。这个软件是异地复制软件,后台运行时对我们前端生产业务系统影响不大。我们通过这个软件可以做真正呢?
可以做生产数据完全的物理复制,可以用这个拷贝,既保证生产数据,用这部分拷贝可以做一些日常的数据备份,另外还可以做运行处理。目前HDS的高端存储对IBM主机系统支持也很好,像在中国银行,所有的主机系统和开放性平台后端全部是HDS的高端存储。
这个软件是我们存储之间实现数据复制的技术,可以实现实时同步。我们通过这个软件可以实现生产中心和容灾系统中心数据的完全一样,完全的相同。而且没有数据丢失。
但是这个技术的特点,我在生产中期要返回到主机系统,完成之前必须要在容灾系统中完成操作,这时候就相当于我要有两份信息,同时要考虑生产中心和容灾系统中心传输时间,这里带来时间的节省。所以实时同步方法不能应用到距离很长的容灾系统方案里面。
为了实现更远距离的容灾,我们采用另外一个技术,这种技术是我们比较先进的异步传输工具,我们知道,像传统的,包括其他厂商的异步数据复制的软件,一般是从生产端主动向灾备磁盘写,这是推的方式,而我们现在这个软件是拉的方式,就是我灾备中心磁盘阵列会主动向生产中心磁盘阵列请求数据,读数据。这带来什么好处呢?拉的方式能够减少数据复制对生产磁盘阵列的系统占有,因为简化了生产中心数据复制软件,像管理的操作等等这方面的工作,减少了对生产系统性能的冲击。
第二点,HUL,异步传输不是说立刻往生产中心写,肯定有延迟,没有传输去IO存在哪里?一定是在生产中心的缓存里,如果这时候我的IO非常密集,这时候我对生产磁盘阵列的缓存占有非常大,最严重的是占到极限,生产系统肯定会中断。
我们HUL采用日制卷,我开辟高速的磁盘区,高速磁盘区用于存储没有传输到灾备中心的数据,当然这个空间是我们可以控制的,相对来说比缓存成本低很多。通过这个我们实际增大了数据缓存区,也减少对生产磁盘阵列缓存的占有,也提高了生产中心的机动性。
后面我专门有个片子讲HUL技术对于网络带宽的需求比其他软件小很多。我们现在HUL内部原理采用时间戳顺序号技术,从这图可以看到,每个IO从生产中心形成后都会带来一个时间戳,完整序列到达后才把数据邪道灾备中心的存储里面,这样保证了容灾中心每个IO的写入顺序和生产中心的每个IO写入顺序一模一样,因为生产中心能够保证数据一致性,那么容灾中心也一致,保证灾备中心数据可用的。这是HUL对数据一致性的保证。
我们现在来看一下HUL对数据带宽的需求,从这张图里可以对比一下,HUL对带宽的需求实际是个平均带宽需求,而其他厂商的异步复制软件实际是对于峰值情况下的带宽需求。为什么呢?
我们可以看到,如果在峰值阶段,我没有足够的带宽,那么我没有传输的数据就会占有生产系统很大的缓存,刚才我也提到,缓存如果占满了,那么生产中心会停止运行。对于我们HUL来养,我们采用了日制卷技术,我们有个更大的日制卷,既使是峰值也可以有足够的缓存保持更新的数据。然后后面通过平均带宽慢慢传输。
为什么重点要提这点?我们都知道异步传输一般都会超过一百公里以上的距离,这种远程链路成本非常高,比如北京到上海,每年线路带宽租用成本非常高。
如果用到HUL,对带宽成本节约非常大。对于容灾策略来讲,容灾部署是很重要的策略。对于同城容灾,我们只能抵御区域性的容灾。

通过远程异地容灾,可以抵御地区型容灾,但是容灾切换性会很长,如果我们生产中心通过前面我们讲到的,应用同步复制技术,对生产磁盘阵列做一个完整拷贝,在同一个生产中心里面,这里带来的好处是,当磁盘阵列出现故障,可以用背靠背方式尽快运行。
我们现在谈到的两地三中心,我们生产中心,在同城建设一个设备中心,通过实施同步复制技术,在异地灾备中心再创造一个异地灾备中心,就是异地容灾系统,给我带来的好处,我现在有三份数据拷贝,我就很容易做出全方位的容灾切换策略,当生产中心坏了,可以通过桐城灾备中心和异地灾备中心切换。当然容灾成本也是随着容灾架构选择有一定的提高。现在比较流行的做法是用背靠背容灾。

还有一种技术,三数据中心,我们从架构图上来看,生产中心首先有个同城灾备中心,然后又个异地灾备中心,分别同步做,我在同城灾备中心和异地灾备中心,通过HUL进入异地灾备中心数据的差异,当生产中心真的发生问题时,我可以很快切换到同城灾备中心,因为我的同城灾备中心和远程异地灾备中心数据差异有纪录,我通过HUL路径就可以把我差异的数据从同城灾备中心复制到异地灾备中心。
这可以带来什么好处呢?我可以非常快的恢复同城到异地的数据保护,因为我差的数据肯定不多。如果没有这个特性,我就需要把同城灾备中心数据全部复制到异地灾备中心,这种数据量如果非常大的话,那么复制时间会非常长。
目前在中行、工行都在使用这个方案。如果在我们环境中有不同品牌的存储,而且由我们HDS高端存储,我们完全可以通过我们的高端存储,比如首先通过虚拟化技术把其他品牌的存储做一个虚拟化池,然后我通过高端存储的技术来实现从生产中心到容灾系统之间的数据复制。虽然我后面存储池品牌比较多,但是通过虚拟化技术完全可以使用HDS高端技术实现容灾。
这是对容灾技术解决方案的总结,不细看了。这是个简单案例,我们给中国商务部电子贸易中心做的3DC容灾系统,生产中心在亦庄,异地灾备中心在广州,在采用技术时,往广州进行数据复制时采用了我们HUL技术。
最后我想强调一点,每个容灾系统的成功建设都需要有三个方面的因素来共同作用,首先是容灾咨询,我想各个专家之前也详细做了介绍,第二要有完善的解决方案,第三要有专业的服务。

从我们HDS公司来讲,我们非常希望用我们容灾的咨询、容灾解决方案和专业的服务,为我们客户提供一个完善的容灾系统建设。谢谢!

【编辑推荐】

  1. BCM2009:中国石油灾难恢复经验分享
  2. BCM2009:灾难恢复与业务持续管理
  3. BCM2009:央行某业务系统运行环境切换一周实践经验
  4. BCM2009:从专业化角度看泰国机场关闭事件与BCM的关系
  5. BCM2009:社区灾害应对方法探讨

相关资讯

今日微信独家

《华尔街日报》报道日前援引知情人士的消息称,由于被美国政府以国家安全问题为由进行调查,联想斥资23亿美元收购IBM低端服务器业务的交易陷入了停滞状态。
关注新浪官博 订阅微信订阅号

订阅焦点周刊

论坛与活动

2016中国数据加速峰会直播专题
2016中国数据加速峰会直播专题[详细]
点击查看

精彩视频

最新文章

1111111
1111111
asdasd
asdasd
同有科技应用型大数据存储在南京掀起智能风暴
同有科技应用型大数据存储在南京掀起智能风暴
斯蒂芬斯蒂芬
斯蒂芬斯蒂芬
京东双11技术备战 构建多中心交易系统
京东双11技术备战 构建多中心交易系统