WatchStor.com — 领先的中文存储网络媒体 | 51CTO旗下网站

新闻资讯 > 大数据 > 正文

海量信息管理的争夺之战

Watchstor.com  佚名丨2009-10-14 16:09 标签:大数据 混合云 数据保护 云存储 服务器虚拟化 

IDC估计,到2010年,信息流量会高达9,880亿GB。这个数字是多么的惊人!根据IDC最近的一份报告显示,去年的数据容量已经达到了1,610亿GB,这个容量大约相当于把书从地球到太阳来回堆12遍的全部容量。如此的海量数据下,企业该如何处理海量信息管理?

在计算机产业,数字常会被夸大,而且海量数据已不是个新问题。但今日信息的组成成分和来源已与过往不可同日而语,如来自网络日志(Blog)、维基(Wiki)、即时通信(IM)、电子邮件、电子表单、无线射频识别(RFID)标签、视频、电子商务交易、技术支援、供应链等各方面的数据都大得惊人。IDC预计,今年产生的数字信息将首次超过存储容量。“当数据容量的威胁已达到骇人听闻的程度时,我们就该有所行动了。”IDC分析师苏珊·费尔德曼(Susan Feldman)认为。

这种威胁在于过量的信息会超出公司的海量信息管理能力,更别提怎样去利用它了。对此,商业科技管理者都有充分的认识。根据《InformationWeek》“展望2007”调研显示,网站门户、数据仓库和数据分析工具都位列首席信息官(CIO)们2007年计划表的首要任务里,远超过对业务应用上的投资。在各种商业创新中,创建支持实时业务的信息流程是关键目标,受关注程度只低于优化业务流程。

海量信息管理是个总称,目标任务是处理不同的数据来源,它包括了好几项彼此有重叠的技术领域:数据库和内容管理系统;网络存储系统;管理主数据和非结构化内容的服务器;提供数据概要、清理、整合的服务器;存放经上述整理改进了的数据的数据仓库;分析内在逻辑的商业智能工具;还有能进行数据查询的搜索引擎等等。

对企业而言,最重要的是如何从流入公司信息系统的海量信息和互联网上的庞杂信息中,提取真正有用的知识,并把它转化为公司的竞争优势。

师傅领入门:海量信息管理组织内的应用

摩托罗拉公司(Motorola,下称摩托罗拉)使用一套名为“指南针”(Compass)的系统来管理自己的网站内容,这些内容每隔12~14个月就会增加一倍,负责摩托罗拉企业内容与协作平台的高级经理布拉德·波斯利(Brad Bosley)表示。这个数字现在为37TB(TeraByte,1Tera等于10的12次幂),这包括4,400个Blog、180万份文档,以及客户与合作伙伴需要访问的几千个外网站点。摩托罗拉也会经常归档过期数据,但新增的数据增长迅猛:波斯利说仅3月份就增加了2.6TB的数据。

指南针系统是基于Open Text公司的Livelink企业级内容管理系统,它的前身是一套微软公司(Microsoft,下称微软)的Office文档管理系统。

这套系统已运行超过10年,使用者为摩托罗拉的7万多名员工。波斯利认为“指南针”的最大挑战并非技术问题,而是员工们如何利用它。这套系统由波斯利和一个6人小组运作管理。但摩托罗拉还网罗了150名谙熟网络的志愿者,作为IT、会计、市场等部门的代表,出任“知识管理倡导者”。他们帮助管理自己部门在指南针上的内容,并教会其他员工如何使用它。“我们致力于使这些专家在前台发挥作用,这样我们就获得了底层的参与和业务精英们的推广和帮忙。”波斯利表示。

另一个海量信息管理的挑战是不断攀升的期望值。Intuit公司TurboTax软件的分析经理克里斯·琼斯(Chris Jones)认为,随着数据量的增加,公司对如何存储大容量数据更为娴熟,对它的运用也在不断改进提高。而与此同时,当公司内部的数据架构和技术达不到要求时,人们已习惯到网上寻找自己需要的信息。“5年前,如果我跟别人说,这份报告要10分钟可以准备好,他们会觉得相当不错了。”琼斯回忆说,“但现在他们对数据的需求都以互联网速度为标准了。”

海量信息管理有多实时?

问题是,实时数据访问究竟有多“实时”呢?有23家连锁店的美国梦幻渡假村集团(MGM Mirage)有一套客户回馈程序系统,使用的数据比实时晚12小时。他们编制这套程序的出发点在于:如果客户离开拉斯维加斯一周后,才通知他们下次消费可用的获赠点数,就没有什么意义了。

在一天内,客户可能会使用不同的信用卡和身份证,走入多家在拉斯维加斯赌场地带的Mirage饭店、酒吧、戏院和赌场。而使用来自国际商业机器公司(IBM)的数据集成软件、微软公司(Microsoft)的SQL Server数据库和Acxiom公司的数据聚合服务,MGM Mirage集团得以在隔夜后就把不同的身份整合统一起来,到第二天自动更新客户账号上获赠的积分点数。“你得在信息处理速度和愿意支付的投资之间进行权衡。”该集团首席技术官(CTO)汤姆·派克(Tom Peck)分析说,“在我们的例子里,接近实时就已足够好了。”

两年前IBM以11亿美元购并Ascential软件公司(Ascential Software),MGM Mirage集团使用的数据集成技术正是来自Ascential软件公司。在过去2年里,IBM还购并了许多海量信息管理领域的其他公司,包括以16亿美元购并FileNet公司及其内容管理系统,元数据管理供应商Unicorn公司,自然语言搜索供应商iPhrase公司,客户数据集成供应商DWL公司和身份识别供应商SRD公司。

这些技术,尤其是IBM购并Ascential软件公司和Unicorn公司所获得的技术,将成为IBM最新产品——信息服务器(Information Server)的一部分,IBM信息服务器软件包涵盖了多种WebSphere应用服务器产品,用于处理各种数据集成任务,如数据源分析(WebSphere Information Analyzer),核对重复记录(WebSphere QualityStage)和从一个数据源到另一个数据源的数据提取、转换与加载(WebSphere DataStage)。信息服务器是IBM信息随需应变(Information On Demand)策略中的旗舰产品。随需应变部门总经理安布吉·戈雅(Ambuj Goyal)表示,“我们依托信息服务器开创了一个新领域,相信以后人人都会跟进的。”

戈雅的话说得很大,但他确实有说这话的底气。从1982年开始他就在IBM工作,并在DB2数据库的早期开发上贡献良多。戈雅带领研发队伍开发了RS/6000 SP 超级计算机和深蓝(Deep Blue)世界

象棋冠军计算机。在短暂担任Lotus部门的总经理后,他成为信息随需应变部门的带头人。

海量信息管理的一个限制因素,戈雅表示,就是目前还没有出现一种基础性的技术。和10年前零散而不成熟的网站技术一样,信息管理也经各种技术逐渐融合演化而成:数据提取工具、清理工具和概要工具。戈雅预测,就像构成WebSphere应用服务器的基础Java虚拟机现在已成为网站应用开发的标准一样,被称为元数据总线的信息服务器基础也必将成为信息管理的标准。

IBM继续丰富它在信息管理上的产品组合。3月,它发布了OmniFind Analytics Edition,用于合并及分析非结构化数据源。该软件作为IBM最近刚升级的DB2数据仓库的一个模块发布,而DB2数据仓库则经常与信息服务器打包在一起。IBM的信息管理技术可不便宜:对一个大公司来说,这些组合可能要花上好几十万美元甚或更多。

坚定的信徒

另一位在海量信息管理领域孜孜探索追求的IBM资深人士就是在2004年加入EMC公司的CTO杰夫·尼克(Jeff Nick)。尼克从上世纪80年代起就在IBM工作,并拥有50多项美国专利。他是IBM网格运算(Grid Computing)技术的总设计师,在离职前,是他领导制订IBM的按需计算策略。

尼克对信息管理技术充满热情。他觉得随着信息共享程度的提高,海量信息管理技术的确可以改变世界,他继续解释道:“蕴藏在这些信息里的很可能就是未知的新发现、绝症的治疗方法、我们来自哪里和将往何方等宇宙谜团的答案。”一阵沉思后,他又补充说:“当然,商业上的需求没那么重的哲学味。”

在过去两年半里,尼克帮助EMC制订了雄心勃勃的收购策略,使这家公司从一个存储硬件厂商变成了信息管理软件和系统的领跑者。这几年来,EMC一直在兜售它的信息生命周期管理系统。

根据IDC的资料显示,随着EMC在2003年以17亿美元购并文档管理软件厂商Documentum公司和2005年以2.75亿美元购并数据输入软件厂商Captiva软件公司(Captiva Software),EMC已成为内容管理系统领域里首屈一指的软件商。对那些质疑它于一年前以21亿购并RSA安全公司(RSA Security)之后,如何把这家公司融入信息管理布局,尼克觉得答案显而易见:一家宣称提供一揽子信息管理平台的技术厂商,怎么可能不提供整合的安全呢?

EMC新增的产品无疑丰富了它的海量信息管理产品组合,最终达到和IBM相类似的水平:Centera和Symmetrix用于数据存储和访问、Documentum和Captiva用于数据管理、RSA使它更安全,还有上万名员工的服务团队提供业务帮助。尼克表示,EMC将通过自主研发和收购的方式,继续扩张自己的信息管理产品组合。

对大型信息管理供应商来说,要说缺少什么技术的话,可能就是企业级搜索了。由霍华德·休斯(Howard Hughes)创建的位于马里兰州的霍华德·休斯医学中心(Howard Hughes Medical Center)管理着近1 PB(PetaByte,即1,000TB,1Peta等于10的15次幂)的研究信息。科学计算经理斯科特·柯林斯(Scott Collins)说,它使用了EMC的存储区域网络(SAN)和用于文件共享的网络附加存储(NAS)软件。然而,搜索特定的研究数据却绝非易事。科学家们经常使用PubMed,这是一个由美国国立医学图书馆(U.S. National Library of Medicine)发布的在线医学研究摘要和引用数据库。柯林斯解释说,因为商业产品不能满足该应用特定的搜索需求,该中心正在开发自己的搜索引擎。

IBM和EMC不是仅有的通过购并丰富自己海量信息管理产品架构的公司。甲骨文公司(Oracle)就在最近购并了内容管理软件商Stellent公司和商业智能(BI)软件商海波龙公司(Hyperion)。Oracle拥有IBM和EMC在企业应用程序业务上所没有的优势。比如,Stellent的内容管理技术就可以和Oracle购并的另外一家企业仁科公司(PeopleSoft)的企业资源计划(ERP)软件整合起来,“只有Oracle可以提供对应用中各流程内所有信息数据的全方位访问。”Oracle全球技术商业部门的副总裁罗伯特·辛普(Robert Shimp)宣称。

然而,这些都还处于展望阶段,因为Oracle正努力通过Fusion Web服务,把这些收购来的软件整合到一起,让它们协同工作。这意味着以后基于Fusion版的PeopleSoft和Stellent软件可以非常方便地搭配使用,但前提是需要进行更多的整合工作。
Oracle已在着手改进的一个领域是自己的数据库技术,这家公司耗费了大量的工作,以使它的数据库查询支持自然语言查询,也就是语义描述方式。辛普表示,预期在Oracle 11G数据库于今年夏天发布的时候,会提供更多的语义功能。

成本问题

最近,微软在海量信息管理上做了一个大动作。这家公司最近发布的SharePoint Server 2007,它的前身SharePoint Portal 2003的定位是协同软件,而新版本的功能则包括如企业级搜索、内容管理和商业智能。3月,微软在圣地亚哥举办的一次会议上,首席执行官(CEO)史蒂夫·鲍尔默(Steve Ballmer)把SharePoint 2007称为“中间层的终极操作系统或平台。”

微软SharePoint业务总裁汤姆·里兹(Tom Rizzo)解释说,鲍尔默的意思是,信息服务器可以作为用户桌面端信息请求与包含信息的网络数据源之间的信息代理,这些数据源包括非结构化内容、数据库、各厂商的ERP和客户关系管理(CRM)应用程序,当然也包括微软自己的Dynamics系列产品线。里兹认为,“这样信息就得到了解放,而SharePoint正是突破口。”根据SharePoint服务器从电子邮件或ERP应用里提取出来的数据,用户借助分析工具能分析出销售增长率的趋势。

与往常相似,微软最有力的竞争优势仍是成本,它不需要在如商业智能工具、内容管理服务器、数据集成软件等海量信息管理软件包上投入巨资,这些产品原本可能需要向不同厂商购买,而且即使买回来也不能够很好地协同工作。

“有许多单一领域的厂商各自为政。”里兹总结道,“而SharePoint却可以作为统一的平台,完成在公司内部各种与效率有关的任务。”SharePoint Server 2007的定价取决于你要选购哪些模块,只提供企业级搜索的版本定价为5.8万美元。

但并非人人都认同这点。安全防卫承包商BAE系统公司(BAE Systems)采用Autonomy公司的Idol Server实现企业级搜索,它可以从多种数据源抓取信息,其中包括SharePoint 2003 服务器。BAE系统公司知识工程师斯科特·佩特里(Scott Petri)认为,即使是升级版的SharePoint Server也过于专业了,不太适于做企业搜索引擎。“Autonomy的搜索引擎对多数据库提供更好的访问。”他指出,“我们要找的产品得有更好的功能,要比SharePoint覆盖更多类型的数据库。”

企业搜索是海量信息管理至关重要的因素,但是它依然被企业忽视了。BAE系统公司采用Autonomy技术已经18个月了,佩特里说,整个公司的员工都通过它搜索Office文档和PDF文件、RSS种子文件、HTML页面和在公司网络上共享的文件。佩特里表示,他也很赞赏Autonomy技术在用户授权和加密上的安全性。

佩特里认为,唯一真正的挑战是,要让员工把Autonomy看成一个概念搜索引擎(Conceptual Search Engine),它有别于使用Google时基于一两个关键字的搜索。在概念搜索方式里,用户给系统提供的信息越多,获得的结果就越准确。

在公司的海量信息管理策略里,企业文化问题也不可小觑。麻省理工学院(MIT)的IT教授斯图尔特·马德尼克(Stuart Madnick)认为,最大的危险在于,海量信息排山倒海而来时,人们却还熟视无睹、麻痹大意。“很可能有些高层就简单粗暴地把这个问题拒之门外。”他表示,“这会错失良机。”商业机会可以溜走,但不断攀升的数字信息却不会自己消失。

【编辑推荐】

  1. IBM提供小企业存储云和信息归档
  2. EMC与神州数码成立合资公司 共拓中国信息管理市场
  3. IBM推LTO4 实施信息随需应变战略主打加密
  4. RSA搞活EMC信息安全架构
  5. 华为3Com亮相信息存储技术学术会议

相关资讯

今日微信独家

《华尔街日报》报道日前援引知情人士的消息称,由于被美国政府以国家安全问题为由进行调查,联想斥资23亿美元收购IBM低端服务器业务的交易陷入了停滞状态。
关注新浪官博 订阅微信订阅号

订阅焦点周刊

论坛与活动

2016中国数据加速峰会直播专题
2016中国数据加速峰会直播专题[详细]
点击查看

精彩视频

最新文章

1111111
1111111
asdasd
asdasd
同有科技应用型大数据存储在南京掀起智能风暴
同有科技应用型大数据存储在南京掀起智能风暴
斯蒂芬斯蒂芬
斯蒂芬斯蒂芬
京东双11技术备战 构建多中心交易系统
京东双11技术备战 构建多中心交易系统