WatchStor.com — 领先的中文存储网络媒体 | 51CTO旗下网站

新闻资讯 > 大数据 > 正文

BCM2009:保险业务数据切换的实践经验

watchstor.com  佚名丨2009-11-09 00:18 标签:大数据 混合云 数据保护 云存储 服务器虚拟化 

尊敬的各位领导、专家,各位来宾,我把泰康人寿在业务数据切换方面的经验跟大家做个分享。

首先我会把泰康人寿在灾备建设方面的状况做个简介,另外会回到演练的过程,有一些详细信息跟大家做个分享,最后是总结。在介绍之前我给大家讲一下泰康人寿是什么样的公司,泰康人寿是96年成立,目前成为全国四大人寿保险公司,目前拥有的客户数超过2200万,目前为止整个资产达到2千亿。
我们在产品的服务和销售方面,我们还有个比较大的队伍,就是营销员,目前为止我们个人产品都是通过营销员做服务,目前有36万。整个业务的开展跟银行一样,基本离不开IT系统,在保险业务各个环节,从跟客户洽谈到后面的审核,包括后续服务,全部建立在IT系统之上,在这样的背景下,IT系统任何的故障、中断都会造成风险的产生。保险公司建立灾备系统也是非常必要的。
我们自己在建立灾备系统时也有很多的考虑,一方面是来自监管部门的要求,大家可以看到,从03年开始,无论是国家还是行业都开始陆续颁布一系列的法规,来推动这一工作的开展,也包括BCM组织的推动作用。
特别是我们这个行业,保监会在去年也颁布了具体的指引,这样的指引给我们保险公司提出了非常具体的要求,所有保险公司必须五年内达到技术监管的要求,这样的技术指标也在指引中得到体现。

大家可以看到等级的要求,我们基本系统分类,包括不同分类下的IPO要求,也在指引下得到了体现。更重要的是我们公司自身的需要,我们自己在02年开始已经完成了全国数据搭建工作,无论是基础设施,包括网络,包括里面的系统,甚至数据,都有了保障。04年开始我们开始研究这样的技术,这样技术研究一直持续到去年,我们建立同城灾备中心。
目前我们也有自己的核心系统,有自己的服务系统,有电话中心,所有这些系统都集中在北京,针对不同的系统我们也制订了不同的技术规范和要求。我们针对不同系统提供灾备环境。
项目历时五个半月,项目前期评估、审核、调研也花费很长时间,这样大投入的项目我们公司也花了很大力气进行决策,也与我们合作方中金公司一起,在有限时间内把系统建设起来。
我有这样的收获,首先通过这样的项目确定了战略规划,我们把公司内的风险,包括大楼、机房、周边环境,包括风险对业务的影响,通过分析后我们建立了这样的规划。大家可以看到我们自己也有这样的计划,先把主要系统纳入进来,慢慢把周边的系统逐年放到中心系统中来,这样的规划都是在项目前期进行的。
通过这样的计划我们也有灾难备份预案,也得到了演练。在日常运营管理方面有比较大的收获,我们有了灾备系统后,任何系统的变更,有任何变更都比以往更加复杂,每当你系统变更后,要定期灾备,这是不能忽视的一方面。通过一年的运营,我们灾备团队也慢慢成熟,今年我们也开始二线建设。
前面把我们的灾备情况做了介绍,下面回到演练过程中来,演练分很多种,作为我们自己来说很担心一点,我们做灾备演练本生有很大的风险,一方面验证灾备系统的有效性、可靠性,另外还要减少对生产性的影响。我们自己做了权衡,大家看到右面有不同方式的演练,我们验证了灾备系统的有效性,并且将生产性的影响减到最小。
演练有很多方面,通过演练让参与到计划中的业务、技术人员,包括领导,有了切身的体会,我们预案如果没有办法和机制,使大家去理解,甚至去习惯这样的流程,这是非常重要的工作,演练就是推动这方面的工作。包括我们的运营系统,数据,包括灾备系统的网络、设施,也需要在演练中得到验证。另外技术指标的设定也需要通过演练来验证。
我们自己也权衡了半天,也找了其他案例,我们选择了桌面演练和模拟切换演练,去年十二月份分别进行。桌面演练我们很清楚,主要做三件事情,地区是让参与人员,那天也邀请了高层领导,让他们有这样的意识,让他们知道这样的演练对于公司真正发生灾难时有很大的帮助,可以让大家慢慢融入到预案的环境中来。第二,要验证我们应急响应流程,真正出现事情时,做决策也需要磨合。在演练中,灾难发生后数据怎么恢复,系统如何在灾备系统中运作。

我们最后真正把数据系统切换,让生产人员在临时的生产中心运行。我们要尽量减少对生产的影响,但是要达到演练的目的,最主要是组织架构,这样的组织架构放在灾难预案手册中来,既包含高层领导,也包含了业务人员,也包括运营组,一部分是我们公司自己的,还有一部分是第三方日常的支持人员。
桌面演练是想让大家了解,当一个事件成为灾难时候,你如何做出基本的响应,当事件发生大转变时你做预警,然后做切换准备,甚至包括灾难的宣告,如何做出决策,这个流程我们希望通过圆桌会议方式,使参与者深入的了解。手册每个人都有,也都会去看。
去年我们做了这样的假定,我们假定在6月1日早晨,变电站通知我们公司说,今天晚上要检修,其实这个事情是很经常的,一年大概碰到两三次,我们假定在早上通知完,晚上会做个检修,检修过程中变电站说,发现检修线路有问题,并且线路发生中断,中断时间在夜里零点,在这过程中大家不断应对,比如有没有办法修好,进行判断,我们系统是等供电结束后还是夜间要做切换准备,这个过程也设置了很多分叉让大家讨论。最后灾难还是发生了,这之前也做了很多准备,包括我们技术人员集结,开始对数据进行恢复,业务人员要把丢掉的数据做恢复,到最后决策中还要进行激烈的讨论。
我们是假设的脚本,但是领导、技术人员也有碰撞,最后做出决定要切换。我们主要要检验几个事情,从修电路简单的情况变为紧急事件,从哪个角色开始响应,从哪方面上报,各级领导如何反应,最后领导发现大事不妙时,就要做灾难恢复预警,预警完后,业务、技术人员就要开始做准备。
最后,想的不要切换,我们自己的观点也是,能不切换就不切换,因为切换的代价还是有,切换到灾备中心是最后一步选择了,我们做了很多次讨论。等到设备进行了切换,切换完后,运行一旦时间还要从灾备中心切换到生产中心。

我们领导组和技术组讨论时,也进行了激烈的辩论,我们9点上班,8点只要能够运营业务就可以,但是供电所到最后又发生了不确定的事情,到底是切还是不切,大家都做了很多反应,刚开始还没有进入角色,当真正想到计划可能完成不了,大家也很上心,也就认真对待这件事情。当真正发生灾难时,这个高层决策是最难的,通过桌面演练也发现的确是这样。

在随后一周又组织了切换演练,切换演练的核心是真正让系统和数据切换到灾备中心来,看看能否使数据以及业务运营继续下来。电力中断应该说比局部的水淹、火灾来说影响更大。
我们公司有几十套系统,重要性也不同,我们这次把重要的核心系统,包括业务系统、财务系统首先纳入灾备中心来,在灾难发生时,总部和分支机构的沟通是非常重要的,北京出事不见得外地会出事情,你的总部遇到问题,分支机构还要营运的。信息上传下达很重要,所以我们也把这套系统看的很关键。
这些主要系统都切换过来,在北京的网络也全部切换到灾备网络上来,另外包括业务部门,所有业务部门也通过实际的操作,包括投保录入、出单都会在这里进行。这是示意图,当我们生产中心出现像供电这样局部的中断,很难在规定时间内恢复时,我们要切换到灾备中心进行。
演练也牵涉到很多数据,数据我们都保留下来,也可以使我们事后来看这些数据,并且进行分析。这是切换演练的场景,这是人员集结经过,集结过程中,首先技术人员做准备,先把断点的数据进行恢复,系统进行设置,另外包括各个系统,财务、业务。刚才讲了,在流程中最关键的是领导决策,根据不同情况进行讨论,为是切还是不切提供依据。演练过程中也进行了评估,也为演练工作做个总结。
我们之前也写了预案,但是也发现有很多可以进行改进,参与人员在比较生动,又有点真实感的环境中进行,他们参与度也越来越高,包括业务人员也提了很多很好的建议。我们演练都有计划的,业务人员说,能不能不做任何通知,半夜打电话做,我们之前有这样的想法,但是因为预案的推行有个过程,这些人是否能够适应,业务人员能够主动提出来,说明这个事情已经会重视起来。
总结下来,我们自己也有体会,这样的灾备项目投入非常大,我们早期很早就想做,因为IT这个事情,真正出了事情肯定找IT,但是这个事情能否做成就要让高层领导认识到必须要做的过程,这次我们做这个项目是从IT开始的,这个事情IT不做就没有人会背这个风险了。让业务部门参与,是决定这个项目成功的关键,让业务部门参与之前也花了很大力气,选了业务部门骨干。
真正的BCM,很多是在管理层,不仅仅是技术层面的事情,我们自己的看法是,这个事情可以从IT开始,但是未来一定让业务人员主导这个事情,这样BCM才能实现。技术方面,我们自己看到了很多很新的技术,这些技术看起来很好,成本也很好,但是最后也没有去用,核心是,本生灾备中心为生产中心扛风险的,如果灾备中心不可靠,那么就生产中心也不会支持。
演练是不能忽视的,第一次形成这样的机制,把核心团队固定下来,这样演练才会有很好的基础。灾备中心一开始就必须要一直做下去,你看起来好象没有成绩,但是不得不去做,因为没有出问题时,灾备中心只是摆在那,这种意识也应该让业务人员、技术人员都来重视。我们IT内部也有技术团队专门做这个事情,业务部门我们也选了一些骨干。业务部门也从被动参与到主动参与,这样才会有比较好的结果。
这个项目涉及到硬件、软件、基础设施等,环节很多,选择一个好的合作伙伴很重要,到今天为止中金还是给了我们很好的答案。同城只是我们的第一步,我们会慢慢把外部系统纳入到灾备系统中来,如果把所有系统都纳入进来,成本很高,高层很难通过,渐进式发展灾备中心,我想应该是可行的办法。另外我们也开始建异地灾备中心,这个工作已经启动了。
今天通过30分钟把我们灾备和演练的做法跟大家进行分享,让大家有个体会,这是主要的目的。我们有灾备也更加让我们放心,也希望大家买我们的产品,因为我们有可靠的服务中心和可靠的灾备中心。

【编辑推荐】

  1. BCM2009:博锐技术提升终端持续管理
  2. BCM2009:灾难恢复与业务持续管理
  3. BCM2009:央行某业务系统运行环境切换一周实践经验
  4. BCM2009:中金数据系统有限公司总裁张利致辞
  5. BCM2009:国际灾难恢复协会副主席Mr. Louis J. Drapeau

相关资讯

今日微信独家

《华尔街日报》报道日前援引知情人士的消息称,由于被美国政府以国家安全问题为由进行调查,联想斥资23亿美元收购IBM低端服务器业务的交易陷入了停滞状态。
关注新浪官博 订阅微信订阅号

订阅焦点周刊

论坛与活动

2016中国数据加速峰会直播专题
2016中国数据加速峰会直播专题[详细]
点击查看

精彩视频

最新文章

1111111
1111111
asdasd
asdasd
同有科技应用型大数据存储在南京掀起智能风暴
同有科技应用型大数据存储在南京掀起智能风暴
斯蒂芬斯蒂芬
斯蒂芬斯蒂芬
京东双11技术备战 构建多中心交易系统
京东双11技术备战 构建多中心交易系统