WatchStor.com — 领先的中文存储网络媒体 | 51CTO旗下网站

新闻资讯 > 大数据 > 正文

EMC开发总监:应该重新划分数据类型

中国计算机报  EMC执行副总裁兼开发总监 Mark Lewis丨2007-08-30 11:32 标签:大数据 混合云 数据保护 云存储 服务器虚拟化 

这次,我想谈谈我对未来核心存储技术的一些基本看法。

首先,我知道这篇文章可能会引起一些观点上的争论。但我认为,EMC作为一个以客户为中心的公司,现在和以后都会以提供市场需要的技术和解决方案为己任。不要以为我们公司会仅仅因为我的预言就停止生产某种产品了,我们所采取的行为永远都是基于需求的。

在开始谈论存储需求之前,我想先说说我关于数据和信息需求发展情况的观点。因为数据就是存储的“客户”,所以,要了解存储的发展方向就必须从数据说起。

EMC执行副总裁兼开发总监 Mark Lewis——51cto.com配图

我认为,未来的数据世界依然是分为两种类型。以前我们一直分为结构化数据和非结构化数据,但是事情并非这么简单,因为现在人们必须行动起来,在他们的非结构化数据中添加一些结构化的成分,这样才能使这些数据更便于使用。换句话说,数据和信息正在变得更加结构化。因此,这些术语已经不再适合形容这些数据类型了。而且,我认为关于数据的分歧将越来越依赖于我称为单事务处理时延的需求。现在OLTP(联机事务处理)系统已经有了这方面的需求,其事务处理性能对相关的存储系统是一个极为重要的属性。单事务处理时延至关重要是因为大多数OLTP系统的操作都只与单个关系型数据库相关,这主要是出于一致性方面的考虑。在这种情况下,总体带宽和I/O容量就没有时延那么重要了。这就像只有一个收费站的高速公路,收费站的性能很大程度上决定了系统的总体性能。

上面这种数据类型我称之为OLTP数据,大量的其他信息(估计现在已超过70%,而到2010年将上升到95%)可以划归为另一种类型—我称之为Web数据。这种数据与前一种类型数据定义的区别在于,单事务处理时延并不是最重要的因素。比如说,一次Web搜索大概花费半秒钟的时间,人们会关注究竟是花了0.45秒还是0.55秒吗?当然不会。既然多个搜索可以并行执行,那么这里需要的就是聚合性能。在高速公路上,也许收费站都很慢,但由于有很多个,那就不会成为瓶颈了。

我认为我们将要看到的变化是非结构化数据会变得更加结构化。显然,使用传统关系型数据库是不行的,使用传统数据库的应用程序无法约束这些孤立Web数据。因为这些结构可能是来自标签、索引、元数据或者定义本体的对象结构的。

我们最近获悉一家名为XHive的公司开发了一些很不错的技术。其中最有意义的是,XHive开发了XML数据库技术。这样,结构化数据的关系型方式更加灵活,而不受使用私有数据库结构的约束。

关于这些数据类型,可能又会有无穷无尽的需求,这些需求可能是关于性能、可靠性或信息等方面的,将会推动存储和信息生命周期管理不断发展。那么我为什么只从一个属性来定义新的数据类型呢?原因很简单,就是对于OLTP系统来说,交易处理时延的需求能够优化存储体系结构的发展。而对于Web数据,其体系结构的发展由更多的系统需求来推动。

尽管以后将有无数的数据类型和需求,但首要的目标依然是:在可预见的未来,存储体系结构需要满足两种数据类型的基本需求。过去,我们划分为结构化数据和非结构化数据;而现在,我认为划分为OLTP数据和Web数据更加恰当。

【相关文章】

【责任编辑:常疆 Tel:(010)68576606-8002】


相关资讯

今日微信独家

《华尔街日报》报道日前援引知情人士的消息称,由于被美国政府以国家安全问题为由进行调查,联想斥资23亿美元收购IBM低端服务器业务的交易陷入了停滞状态。
关注新浪官博 订阅微信订阅号

订阅焦点周刊

论坛与活动

2016中国数据加速峰会直播专题
2016中国数据加速峰会直播专题[详细]
点击查看

精彩视频

最新文章

1111111
1111111
asdasd
asdasd
同有科技应用型大数据存储在南京掀起智能风暴
同有科技应用型大数据存储在南京掀起智能风暴
斯蒂芬斯蒂芬
斯蒂芬斯蒂芬
京东双11技术备战 构建多中心交易系统
京东双11技术备战 构建多中心交易系统