WatchStor.com — 领先的中文存储网络媒体 | 51CTO旗下网站

技术文档 > 大数据 > 正文
大数据存储管理系统面临挑战的探讨(1)
作者: 佚名 2014-07-24 13:52 【PChome】

随着互联网的不断扩张和云计算技术的进一步推广,海量的数据在个人、企业、研究机构等源源不断地产生。这些数据为日常生活提供了便利,信息网站可以推送用户定制的新闻,购物网站可以预先提供用户想买的物品,人们可以随时随地分享。但是如何有效、快速、可靠地存取这些日益增长的海量数据成了关键的问题。传统的存储解决方案能提供数据的可靠性和绝对的安全性,但是面对海量的数据及其各种不同的需求,传统的解决方案日益面临越来越多的问难,比如数据量的指数级增长对不断扩容的存储空间提出要求,实时分析海量的数据对存储计算能力提出要求。一方面传统的存储解决方案正在改变,比如多级存储来不断适应大数据存储管理系统的特点和要求,另一方面全新的存储解决方案正日渐成熟,来有效满足大数据的发展需求。

1、大数据定义及其广泛应用与典型架构

越来越多的人可以通过网络获得包括架构(IAAS)、平台(PAAS)以及软件(SAAS)等服务,云计算为终端用户提供了便捷而人性化的服务,大大地降低他们的使用成本,优化了用户体验,更拓展了互联网企业自身的营收业务。例如购物网站通过记录每位访问用户在其网站上每一次的鼠标点击操作来预测用户的喜好,并由后台计算产生相关产品的购物推荐,提高了广告产品推广的针对性同时也完善了个人用户的购物体验。随着成千上万的终端用户的并行访问,仅用户行为的跟踪就会产生巨量的数据,这些数据的处理与存储对于互联网企业的传统数据仓库来说带来了新的问题和挑战,从而“大数据”的概念应运而生。所谓大数据或称巨量资料、海量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

大数据自诞生以来其规模也在不断地发生改变,从开始PB(PETA-BYTE)级别正快速地发展到EB(EXA-BYTE)级别,大数据规模的不断快速扩张是因为其广泛的数据源,这些数据有的正如前面例子所提到的,是每天线上跟踪用户日常行为所产生,或者是网络中手机和传感器数据采集而来;有的则是企业自身多年以来信息积累而成,例如金融行业历史数据来引导未来的投资方向,又如最大的电子商务网站淘宝根据其历史记录推出的数据魔方服务产品来帮助商家指定营销手段;有的是服务系统日志收集而来,例如从网络服务器的工作日志或者数据库El志中提取到。这些各种各样的数据来自不同的设备或者应用,其格式也不尽相同,被实时或事后采集并保存到大数据存储管理系统中,根据不同的应用需求被大数据处理系统进行离线或实时或交互式的处理,之后可能的用途包括:(1)成为最终的数据报表反馈给应用开发人员或数据分析师;(2)成为快速查询或者计算的结果反馈给前端应用服务;(3)成为更新后的数据表格传送到数据库中以供查询;(4)被压缩成备份数据存放到大数据存储集群中。大数据的存储与处理典型架构(如图1)已经逐渐取代传统的数据仓库成为数据中心核心部件,发挥着云计算时代重要的作用,并且使得数据中心发生着巨大的变化,迎接新的挑战。

2、大数据存储与应用的特点分析

“大数据”是由数量巨大、结构复杂、类型众多数据构成的数据集合,是基于云计算的数据处理与应用模式,通过数据的整合共享,交叉复用形成的智力资源和知识服务能力。其常见特点可以概括为3V:Volume、Velocity、Variety(规模大、速度快、多样性)。

大数据具有数据规模大(Volume)且增长速度快的特性,其数据规模已经从PB级别增长到EB级别,并且仍在不断地根据实际应用的需求和企业的再发展继续扩容,飞速向着ZB(ZETA-BYTE)的规模进军。以国内最大的电子商务企业淘宝为例,根据淘宝网的数据显示,至2011年底,淘宝网最高单日独立用户访问量超过1.2亿人,比2010年同期增长120%,注册用户数量超过4亿,在线商品数量达到8亿,页面浏览量达到20亿规模,淘宝网每天产生4亿条产品信息,每天活跃数据量已经超过50TB.所以大数据的存储或者处理系统不仅能够满足当前数据规模需求,更需要有很强的可扩展性以满足快速增长的需求。

(1)大数据的存储及处理不仅在于规模之大,更加要求其传输及处理的响应速度快(Velocity)。

相对于以往较小规模的数据处理,在数据中心处理大规模数据时,需要服务集群有很高的吞吐量才能够让巨量的数据在应用开发人员“可接受”的时间内完成任务。这不仅是对于各种应用层面的计算性能要求,更加是对大数据存储管理系统的读写吞吐量的要求。例如个人用户在网站选购自己感兴趣的货物,网站则根据用户的购买或者浏览网页行为实时进行相关广告的推荐,这需要应用的实时反馈;又例如电子商务网站的数据分析师根据购物者在当季搜索较为热门的关键词,为商家提供推荐的货物关键字,面对每日上亿的访问记录要求机器学习算法在几天内给出较为准确的推荐,否则就丢失了其失效性;更或者是出租车行驶在城市的道路上,通过GPS反馈的信息及监控设备实时路况信息,大数据处理系统需要不断地给出较为便捷路径的选择。这些都要求大数据的应用层可以最快的速度,最高的带宽从存储介质中获得相关海量的数据。另外一方面,海量数据存储管理系统与传统的数据库管理系统,或者基于磁带的备份系统之间也在发生数据交换,虽然这种交换实时性不高可以离线完成,但是由于数据规模的庞大,较低的数据传输带宽也会降低数据传输的效率,而造成数据迁移瓶颈。因此大数据的存储与处理的速度或是带宽是其性能上的重要指标。

(2)大数据由于其来源的不同,具有数据多样性的特点。

所谓多样性,一是指数据结构化程度,二是指存储格式,三是存储介质多样性。对于传统的数据库,其存储的数据都是结构化数据,格式规整,相反大数据来源于日志、历史数据、用户行为记录等等,有的是结构化数据,而更多的是半结构化或者非结构化数据,这也正是传统数据库存储技术无法适应大数据存储的重要原因之一。所谓存储格式,也正是由于其数据来源不同,应用算法繁多,数据结构化程度不同,其格式也多种多样。例如有的是以文本文件格式存储,有的则是网页文件,有的是一些被序列化后的比特流文件等等。所谓存储介质多样性是指硬件的兼容,大数据应用需要满足不同的响应速度需求,因此其数据管理提倡分层管理机制,例如较为实时或者流数据的响应可以直接从内存或者Flash(SSD)中存取,而离线的批处理可以建立在带有多块磁盘的存储服务器上,有的可以存放在传统的SAN或者NAS网络存储设备上,而备份数据甚至可以存放在磁带机上。因而大数据的存储或者处理系统必须对多种数据及软硬件平台有较好的兼容性来适应各种应用算法或者数据提取转换与加载(ETL)。


【内容导航】
 第 1 页:大数据定义及其广泛应用与典型架构  第 2 页:传统存储在大数据应用中面临的挑战
 第 3 页:大数据存储方案简介

标签:大数据 内容管理 

了不起的IT经理
LecVideo
论坛与活动