WatchStor.com — 领先的中文存储网络媒体 | 51CTO旗下网站

评论分析 > 重复数据删除 > 正文

存储:压垮企业的最后一颗稻草

CNW.com  宋家雨丨2009-05-13 09:00 标签:重复数据删除 

身处金融危机的危局,企业可谓是四面楚歌,危机重重,但是来自爆炸性数据增长的压力并不会因此有所减轻。据IDC统计,用户每年都会有54%左右的数据增长,这等于是18个月用户的数据就会翻一番。长此以往,用户的存储系统很快就会不堪负荷,形式非常严峻。

对于企业而言,另外一个需要引起注意的是:今年7月1日,中国将颁布《企业内部控制基本规范》,相当于美国的萨班斯法案,对于企业有关商业数据举证,从法律上进行了规定,这对于企业的数据保护和存储都提出了更高的要求。以邮件为例,萨班斯法案中明确规定,企业所有电子邮件以及其他电子记录,必须保留5年或7年以上,同时要求在规定时间内完成高速检索。如果无法提供所需的电子邮件记录——或由竞争对手来提供这些记录——会带来严重处罚。中国将要实施的规范,是否会有这样严厉,尚不得而知。但是强制加强有关数据的保护是一个趋势,需要企业认真加以重视。

应对从数据分析入手

面临数据爆炸性的增长,单纯扩容存储肯定不是一个办法,仅从成本上就走不通。那么,计从何处?前不久访华的IBM ProtecTIER全球销售总监Mike Doran,IBM ProtecTIER解决方案亚太区域销售总经理Justin Hildebrandt在接受本报记者独家专访时,带来了一些解决问题的思路。

Doran先生指出,根据IDC的统计,当今世界结构化数据增长率大概是32%,而非结构化数据增长已达到近两倍(63%),也就是说,企业大量的数据增长压力来自非结构化数据,最明显的例子是E-mail,收到别人发来的一封电子邮件,随即转发,如此就形成了大量的重复数据,如果能够从技术上,对此加以鉴别,就可以有效减轻来自数据爆炸性成长的压力。

Hildebrandt指出,最有效的办法就是采用重复数据删除技术。据他介绍,目前在市场上有两种重复数据删除技术,一种是Post Processing(后处理),另一种是Inline Processing(在线处理)。其中,后处理是把完整的数据1:1备份到存储设备上,等所有数据全部备份成功,在一个固定时间,进行批处理压缩,实现重复数据的删除;其弊端显而易见,当数据量过大后,备份窗口过长将导致用户不堪重负;此外,由于承担备份存储的虚拟带库不中断运转,很难完成把虚拟带库的数据离线克隆到磁带上。

在线处理能够解决后处理面临的问题,但是,对于用户而言,有些问题也需要加以注意。首先,数据的恢复速度问题,恢复速度如果太慢,那么采用重复数据删除技术将得不偿失。此外,有些厂商的系统,其重复数据删除技术性能有限,无法处理超过100TB的数据。这些问题都会对用户使用造成障碍。

Diligent的选择

Diligent是全球著名的从事在线处理重复数据删除技术的公司,去年IBM收购了Diligent之后, 由Doran来出任其全球业务总监,负责美国、欧洲、以及大中华的市场。

IBM收购Diligent之后,针对市场需求发布了IBM System Storage TS7650G ProtecTIER新产品。作为一种在线处理重复数据删除技术产品解决方案,它通过一个ProtecTIER服务器,对虚拟磁带库(VTL)提供支持,其中,ProtecTIER提供HyperFactor的在线处理方式的重复数据删除技术,它可以提供的压缩比为25:1,在一些特定的情况下,可以达到30:1。

据Hildebrandt介绍,较之市场上其他的在线处理重复数据删除技术产品,Diligent有两大独创的技术:缓存驻留索引和专利精简算法。其中,缓存驻留索引,使得其索引比可以达到250000:1,它的价值在于可以确保系统的性能。一方面它可以确保ProtecTIER备份服务器不成为备份的瓶颈,另外一方面它对于备份数据恢复的性能也直观重要。此外,由于采用缓存驻留索引的技术,系统就可以极快的速度计算索引、比较索引,当比较结果相同时,会再度进行二进制比较,确保数据一致性。其专利的精简算法,可以避免著名的哈希算法(Hashing Algorithms)的不足。

所谓哈希算法,是通过复杂的哈希算法,计算出一个8K的索引值,再通过该索引值进行比较,来确定数据是否为重复数据。但是哈希算法毕竟是一种算法,存在所谓的哈希冲突,也就说有可能两个数据虽然完全不同,但计算出的哈希值是一模一样的。如果重复数据删除技术据此进行数据删除,就导致数据不一致性,这是一场灾难。Diligent专利精简算法,当有新的备份数据读入时,在内存里先把特征值进行定位,然后跟内存做比较,如果一旦有相似的特征值,再去从磁盘把相关的值读出来,真正做一次二进制比较,确保数据不会有误删除的现象。通过这种计算差异以后,再把新的数据,通过2:1的LZH标准压缩格式存。一方面性能更高,同时可靠性比哈希算法更强,不会出现任何冲突。

尚需努力

针对国内市场,Doran指出,数据增长主要分为两部分:一是on site,一是off site。所谓on site是每天在线处理的生产数据,而off site是指备份数据。在美国,这两部分数据增长是相差无几的;在中国,比较偏重on site。这说明中国的数据保护做得不够好。他表示,随着有关法律、法规的实施,中国对于数据备份的需求,将会呈现快速成长,而重复数据删除技术,将可以有效帮助用户减缓数据存储的压力。

针对主存储系统,也存在着一定的重复数据,对此,Doran表示,IBM也对主存储的重复数据删除密切加以注释,将视用户的需求,适时推出有关产品。但是现在的重复数据删除的重点还主要集中在数据备份领域。在这个领域,Diligent ProtecTIER为用户提供了选择。

【编辑推荐】

  1. SNW2009春季:重复数据删除、固态硬盘和6Gb SAS成为焦点
  2. Red Hat GFS 存储解决方案
  3. 五大策略助你完美备份数据
  4. WatchStor观察:你的存储决策明智吗?

相关资讯

今日微信独家

《华尔街日报》报道日前援引知情人士的消息称,由于被美国政府以国家安全问题为由进行调查,联想斥资23亿美元收购IBM低端服务器业务的交易陷入了停滞状态。
关注新浪官博 订阅微信订阅号

订阅焦点周刊

论坛与活动

2016中国数据加速峰会直播专题
2016中国数据加速峰会直播专题[详细]
点击查看

精彩视频

最新文章

1111111
1111111
asdasd
asdasd
同有科技应用型大数据存储在南京掀起智能风暴
同有科技应用型大数据存储在南京掀起智能风暴
斯蒂芬斯蒂芬
斯蒂芬斯蒂芬
京东双11技术备战 构建多中心交易系统
京东双11技术备战 构建多中心交易系统