WatchStor.com — 领先的中文存储网络媒体 | 51CTO旗下网站

新闻资讯 > 数据仓库 > 正文

惠普进军数据仓库的内幕

计世网  hp丨2007-03-23 14:31 标签:数据仓库 

在公司内部,惠普以每个月几十个的速度淘汰750多个数据中心,由建设中的数据仓库接管相应的任务。这项升级计划于2008年7月完成。当全部完成后,这个中央集权的系统将提供上千个标准的报告以及对特殊询问的应答,应答的范围涉及各个方面,从产品的出货和销售到客户合同和呼叫支持。

不过莫特需要做得更完美一点。因为惠普内部数据仓库将成为Neoview的一个展示案例。任何错误或缺陷都将让惠普在数据仓库市场上的努力白费。

受欢迎的委员会

即使竞争者对惠普进入数据仓库市场心怀忧虑,他们也不可能表现出来。NCR公司Teradata数据仓库事业部副总经理兰迪·李(Randy Lea)表示:“如果惠普也来一起入局的话,我们当然是非常高兴的。”李解释说,有赫德、莫特、安?利弗莫尔(Ann Livermore,惠普技术解决方案集团负责人) 以及斯科特?斯托拉德(Scott Stallard,惠普企业存储与服务器部门总经理)这些人手拿Neoview的小册子敲击市场的大门,数据仓库肯定会被更多的公司知晓和选择,但是没有一家公司的CIO在没有经过评估选择之前就奖给惠普购买数据仓库的合同,而Teradata喜欢有这样被选择的机会。

Teradata的收入正在逐年递增,截止2006年9月30日的这个季度收入已达到3.78亿美元,比去年同期增长了5%。虽然不是一个很大的增长比例,但它依旧是NCR公司这个季度业绩的一个亮点。去年秋季,该公司发布了Taradata数据仓库8.2,这是它的旗舰软件的最后一个版本,有 44个新的经过改进的功能特点。增强功能之一包括在关联索引中创造多个分区。今年上半年有一个加固的硬件产品线是可以预期的。这家公司有一群大客户,比如美国银行(Bank of America)、新格勒无线公司(Cingular Wireless)、电子港湾公司(eBay)以及沃尔玛,都拥有500TB规模的数据库。和Neoview不同的是,Teradata的可扩展性已经得到了证明。

惠普试图向人们描述Teradata是昂贵的私有软件,只能在专门的计算设备上运行,而这样的计算设备不能再运行其他的应用,情况也确实如此。数据库顾问理查德·温特(Richard Winter)曾帮助惠普一起制定Neoview战略,他希望惠普能通过价格策略,追赶Teradata以及IBM和Oracle。但惠普拒绝讨论Neoview的定价,因为企业数据仓库软件、服务器和存储系统加起来一开始就需要几十万美元,并且很快将达到数百万美元。Neoview的出货包括16节点、32节点、64节点、128节点和256节点的配置,每一种配置都有两个安腾处理器。

需要澄清的是,惠普也不完全是数据仓库方面的新手。许多数据仓库是在惠普服务器上运行的,惠普的这项服务这几年帮助客户部署了1,000多个数据仓库。现在,在它的Integrity服务器上又加了完整的软件环境,惠普相当于两只脚都迈进了数据仓库领域。同时,意识到自己要想成为第一梯队的竞争者还缺少专门知识,惠普在去年12月同意购并Knightsbridge Solutions Holdings公司(Knightsbridge Solutions Holdings,下称Knightsbridge),这家拥有700名员工的公司专门为世界500强公司提供数据仓库、商业智能以及综合数据服务。双方不愿意透露这项交易的具体条款。顾能公司(Gartner)在它的一份书面报告中指出,购并Knightsbridge就是惠普进军数据仓库计划的证明, “目的是为了建立一个拥有商业智能服务、解决方案和产品的完整的部门”。
它已经有180TB的原始数据和75TB的可用数据。到2008年为止,这个数据的规模至少会翻一倍。到那时,惠普全球员工总数的三分之一—大约5万名员工将可以访问这个新的数据仓库。莫特表示,最终,惠普的供应商、分销商和商业客户也将可以访问这个数据库。莫特对于这个最终期限和责任会坚守承诺,他现在负责惠普3年期IT改革和与之不可分割的数据仓库建设,它们将像当年艾森豪威尔将军指挥的“诺曼底登陆”一样载入史册。

莫特和他的团队并没有选择风险较小的路径—采用现成的技术。惠普宁可在它自己购并的产品——Tandem的NonStop操作系统和数据库上下赌注,也不愿意采用赫德和莫特如此熟悉的Teradata平台。

Tandem计算机公司(下称Tandem公司)在上个世纪80年代和90年代曾围绕NonStop系统建立了数十亿美元的生意,直到1997年被康柏计算机公司(Compaq,下称康柏)购并。2002年,康柏计算机公司又被惠普购并。NonStop在事务处理方面有着良好的声誉,不过它作为商业智能环境下的“大脑皮层组织”的能力并没有得到证实。而商业智能环境的资料分类和大型表格的关联要求不同的特征装置。

惠普的工程师在赫德和莫特到来之前,曾经对NonStop软件进行比较随意的修补,直到莫特的团队认可了这个软件的价值,惠普才决定将它进一步打造成一个商业产品。莫特说:“我们对他们整个产品路线规划有着非常大的影响。”(注:莫特是《InformationWeek》编辑顾问团的成员,对此文章不负担任何责任。)

按照设计,Neoview 将成为数据仓库工具(类似Netezza和其他公司卖的产品),然后将被进一步改造成高端系统。尽管这个战略还没有得到正式宣布,惠普的新战略目前也还只是在坊间流传,但惠普网站上有已经几个网页对产品线作了描述。据了解,这个产品线包括NonStop OS微核和数据库、惠普Integrity服务器和StorageWorks存储系统,一个控制系统性能的控制面板,以及从一线业务数据库中抽取数据并将其下载到数据仓库中的能力。

可以看到,建立一个大型数据仓库所需要的大部分组件基本上都包含在内了,除了一件重要的东西——用于数据分析的工具,可谓万事具备,只欠东风。对此,惠普将和商业智能(BI)专业公司合作,包括博奥杰公司(Business Objects)、Cognos公司(Cognos)、海波龙公司(Hyperrion)、Informatica公司(Informatica)、MicroStrategy公司(MicroStrategy)和赛仕软件研究所。惠普对基于Java的BI报告工具进行了定制化开发,并在其内部做了首次展示。但他们并没有计划将此工具商业化。这部分市场被证实很难有所突破,IDC限制了数据仓库工具业务每年的市场规模就在96亿美元左右,这已经大于数据库的市场规模了。

惠普目前开始大量招聘人员来扩建Neoview开发队伍。首席架构师格雷格·贝特(Greg Battas)表示,他的团队已经扩展了一倍,现在已经有超过100名数据库专家和其他软件开发人员。他们的主要工作是参与编写数据库编译软件,该软件的功能是在数据挖掘中经常出现的复杂的表格关联中起作用。他们还把系统改造成可以处理并行工作任务,比如在扫描数据库表格进行分析的同时处理新的数据。

现在的主要任务是为Neoview创造经过改进的管理和控制工具,以及保证系统对每天的业务运营提供精确的分析。这就是惠普朴素的战略路线图。到目前为止,惠普并不希望超越它原来的计划。贝特表示:“我们非常清楚,在这个市场我们只有一次出击的机会。”

中国惠普公司也将参与到开发活动的各个方面,位于北京的惠普实验室将发挥重要的作用,据惠普实验室的研究主管刘伟透露:6个惠普中国实验室的研究人员正与他们的美国同事通力合作。他们也和中国顶级大学的计算机科学家一起编写用于迁移海量数据的软件,其中的运算规则可以在处理器中更加平均地分配计算任务。
灵活的数据仓库

经过又两年的开发工作后,惠普拥有了第一位还没有宣布的客户——零售商邦顿商店(Bon-Ton Stores), 这家公司拥有272家百货商店和7家家具店,遍布美国23个州,目前他们用一个64位处理器、7TB的Neoview 系统进行商品分析和营销。邦顿商店从上个世纪80年代中期开始就采用Nonstop处理系统,并在该系统上运行数据仓库达10年之久,这个数据仓库被邦顿商店的CIO吉姆·兰斯(Jim Lance)称为第一代数据仓库。当惠普将邦顿商店的数据分析工作在Neoview上运行后,反应速度是原来的13倍。兰斯表示:“这一点让我们决定采用 Neoview。”

邦顿商店新的数据仓库包括商品数据、客户数据以及供应商数据,其他公司也已经开始测试Neoview。惠普表示在几个星期后将宣布一些新客户的名单。

按照惠普的观点,数据仓库之所以不再被业界期待是因为这项技术曾经一度昂贵、不开放并且只能支持部分业务,它并不能支持整个公司的所有数据。但Neoview将不同于以往的数据库,因为Neoview服务器采用英特尔制造的面向安腾架构的处理器,他们是设计方面的工业标准。而且惠普改造后的Nonstop软件非常灵活:它可以同时用来处理实时数据和存档数据。这个所谓的混合工作是在Nonstop可靠的并行处理架构上运行的,它最大的好处是提供可扩展性和99.999%的可用性。

在得克萨斯州的奥斯汀,有一幢毫不显眼的惠普大厦,曾经是Tandem的工厂,现在成了惠普公司销售、市场以及技术人员(包括前Tandem公司和康柏公司的雇员)的办公楼。就在这幢楼的一间会议室里,莫特透露了惠普企业内部数据仓库背后的战略意图。在办公楼的隔壁,一个12.5,万平方英尺的数据中心已接近竣工。莫特说,来自CEO的一个意想不到的不满是建立数据仓库的推动力。赫德无法从分散的750多个数据中心获得惠普全球运行情况的精确信息,这一点对于CEO来说是失败的。莫特表示:“公司并不缺少数据,缺少的是来自不同业务部门的协调一致的、及时的数据。”

根据莫特的经验,一个企业数据仓库是解决这一问题的办法。从部署速度上考虑的话,Teradata系统是一个便捷的选择。他所帮助建立的沃尔玛 Teradata数据仓库被其他公司所称羡,这个数据仓库目前已经有570TB的数据量。莫特说惠普曾经考虑建立Teradata的数据仓库,并将此项目作为两家公司一起走向市场的一次合作。

但是惠普的工程师们已经为NonStop开发了数据仓库的功能,莫特需要给这个项目展示的机会,并且如果惠普自有的技术已经准备推广应用的话,就必须快速做出决定。2005年的最后4个月,他的团队一直在实验室进行系统压力测试。基于安腾架构的NonStop系统的测试结果让莫特非常满意。6个月后,也就是2006年5月,惠普启动了内部数据仓库的大规模建设工程。此后不久,Neoview作为一个商业产品迅速投放市场。

在公司内部,惠普以每个月几十个的速度淘汰750多个数据中心,由建设中的数据仓库接管相应的任务。这项升级计划于2008年7月完成。当全部完成后,这个中央集权的系统将提供上千个标准的报告以及对特殊询问的应答,应答的范围涉及各个方面,从产品的出货和销售到客户合同和呼叫支持。

不过莫特需要做得更完美一点。因为惠普内部数据仓库将成为Neoview的一个展示案例。任何错误或缺陷都将让惠普在数据仓库市场上的努力白费。
重新定义市场

这项购并一旦完成,Knightsbridge将成为惠普技术解决方案集团的一部分,该集团负责惠普的商业产品和服务。Neoview就属于这个集团。《InformationWeek》联系了IBM和Oracle,想听听他们对新竞争的反应,不过在文章出版前,这两家公司都没有给出答复。

有人可能想不通,惠普为什么要进入一个已经进入购并整合的成熟市场呢?1998年,Informix购并了Red Brick System公司(Red Brick System),接下来在2001年,IBM又吞并了Informix。对此,莫特的回答是:因为惠普要重新定义数据仓库,这个市场并没有成熟。

惠普认为,绝大多数公司不得不搭建一个包罗全部的所谓“企业”数据仓库,但是多数公司只用来支持部分业务。比如,航空公司用数据仓库只是进行收入管理,电信运营商只是用它尽量减少客户流失。莫特表示,即使沃尔玛的Megasystem也仅仅包含了一部分零售数据,主要是供应链和商品方面的数据。一个真正的企业数据仓库应该包括所有与员工、客户服务以及更多方面有关的信息。简而言之,就是要100%包含公司产生的所有数据。不过,这只是一个理想化的说法,并不能完全实现。莫特承认说:“这个概念已经存在很长时间了。”

几乎没有数据仓库架构师可以完成包含100%信息的数据库,因为这超出了成本和数据集成挑战的极限。随着企业购并和全球扩张的进行,业务也不断地进行变化,数据仓库的更新总会比业务的变化晚一步。况且,并不是所有的部门都希望依靠信息技术手段完成他们的数据分析。当问及惠普的部门员工是否反对使用中央数据仓库时,莫特的回答是:“他们中的每一个人都反对。”

惠普希望通过其商业产品扩大数据仓库市场,简化系统并降低价格,以吸引大量以前从来没有考虑部署数据仓库的公司。这通常是这个行业进入市场的标准途径。数据库专家吉姆·格雷(Jim Gray)是微软研究院的技术专家,他在20世纪80年代的10年时间里效力于Tandem公司。格雷表示:“目前,安装和使用数据挖掘系统的专业门槛还太高,所以缺少足够的专业人员去做所有可以做的事情。”

按照莫特的设想,数据仓库在资金上可以自给自足。他说,估算一下公司内所有数据中心所需要的成本,完全可以将这部分资金释放出来,用来支付一个更大、更高效的系统。

不过,惠普还有很多工作要做。莫特承认,Neoview在系统监控、系统性能以及集成工具方面需要更好的协调性。但他表示这些差距都是功能性的,可以很快得到弥补。

温特顾问认为,Neoview的市场机会在于100TB以上规模的数据仓库,而不是沃尔玛那样的500TB以上的“巨型怪物”。目前99%的数据仓库市场收入仍来自100TB以下的规模,这个数字足够引起赫德的关注。

此外,莫特还怀有一种很强的责任感。他认为自己不仅有责任实现惠普内部数据仓库的良好运行,而且有义务帮助其他更多的公司在数据仓库上回到正途。这位惠普公司的CIO说:“我在这个行业里有太多的朋友,他们正让这些公司沿着错误的道路走下去。”

【责任编辑:城尘 TEL:(010) 68476636-8003】

相关资讯

今日微信独家

《华尔街日报》报道日前援引知情人士的消息称,由于被美国政府以国家安全问题为由进行调查,联想斥资23亿美元收购IBM低端服务器业务的交易陷入了停滞状态。
关注新浪官博 订阅微信订阅号

订阅焦点周刊

论坛与活动

2016中国数据加速峰会直播专题
2016中国数据加速峰会直播专题[详细]
点击查看

精彩视频

最新文章

1111111
1111111
asdasd
asdasd
同有科技应用型大数据存储在南京掀起智能风暴
同有科技应用型大数据存储在南京掀起智能风暴
斯蒂芬斯蒂芬
斯蒂芬斯蒂芬
京东双11技术备战 构建多中心交易系统
京东双11技术备战 构建多中心交易系统