WatchStor.com — 领先的中文存储网络媒体 | 51CTO旗下网站

新闻资讯 > 大数据 > 正文
闯入人工智能的地盘:英特尔和Cloudera在大数据上做点儿啥?
作者: 崔昊 2017-07-19 13:52 【WatchStor】

“年年岁岁花相似,岁岁年年人不同”,用刘希夷的这句诗来形容过去几年的IT市场简直再恰当不过了,大概12、3年前,虚拟化技术炙手可热,很多人开始在自己的PC上安装VirtualPC和VMware,近10年前,云计算技术开始兴起,4、5年的时间里,IT人的话题里总有云计算这个词汇频繁出现;又过了几年,大数据成为新的热词,并由此催生出了一系列包括Hadoop、非结构化数据、Spark等等热词,企业级IT市场上“谁人不识大数据”那就像是被时代抛弃了一样。

年年岁岁,企业级IT市场还是那个市场,偶有增长,偶有下降,无论是物联网、移动互联网、智能设备,还是云计算、大数据、虚拟化这些名词,企业级IT市场这朵花还是一成不变的绽放着,企业的CIO、IT经理们所关注的重点,仍然是对企业业务的支撑和企业发展的创新,有所不同的,只是岁岁年年在媒体、在厂商、在展会上的关键词往复更替,“万变不离其宗”。

于是,随着岁岁年年的时光更迭,我们忽然就进入了人工智能时代,从图像识别到无人驾驶,从智能机器人到AlphaGo 2对柯洁毫无悬念的三连胜,AI这个词成为了横跨企业级IT市场、消费和商用IT市场、家电行业、互联网行业、汽车及制造业、生物医疗、教育培训等多个行业的跨行业“网红级热词”,“一时间红的发紫”,而跨行业的特点,也让人工智能这个词显得极为与众不同。

仅就企业级IT市场而言,人工智能也是一个非常与众不同的词,与虚拟化、云计算、大数据这些主要关注在某一个领域(服务器、计算和数据)的热词不同,人工智能的计算(计算力)、算法、数据的三角结构意味着它囊括了在此之前最火热的云计算和大数据技术,是一个“继往开来,包罗万象”的新名词和新领域。

但在人工智能的风潮之下,GPU、FPGA、ASIC等新的计算处理器百花齐放,深度学习、机器学习算法激荡飞扬,一片热潮之下,“数据”这件事情却像是一个备受冷落的“小公举”,无论是媒体报道,还是厂商宣讲,亦或是明星技术专家的背书,相比前两者都显得弱势的多,少的可怜,甚至有人一时疑问:在人工智能的时代,Hadoop还有什么用?我学的大数据技术,是不是从此被打入冷宫了?

前不久来北京参加行业内知名的数据领域展会Strata Data Conference的Hadoop之父Doug Cutting可不这么看:首先,Doug Cutting认为,大数据,特别是Hadoop,已经进入到云计算的环境中,Hadoop用户可以在云环境中使用这一架构,而很多大数据时代的技术也都开始在Google Cloud Platform、亚马逊AWS、微软Azure以及阿里云等公有云环境中使用,而公有云服务提供商能够为企业用户提供更加强大、更加易用的计算机群以及存储容量更大的存储系统,还可以为他们提供更好的数据复制和保护,并将大数据系统更快的接入到企业的业务应用中去,这些业务应用当然也包括人工智能;

其次,数据,特别是大数据,仍然是人工智能的关键,人工智能的出现不意味着之前的数据技术发展已经足够了或者说发展停滞了,相反,随着人工智能的发展,对底层数据管理、存储和处理技术的需求会比以前更加旺盛,根据媒体报道,以Google近期发表的AI图象识别为例,这项技术基于数以十亿计的图象识别深度智能系统培训,背后仍然是用大数据实现AI的理念——数据质量越高、数据集合越大、数据供给速度越快,人工智能的能力就越强,正如人们常说的“数据是必备,大数据是关键,就像是火箭发动机的燃料”,而Hadoop、Spark这样的技术显然在大数据时代已经经过验证,仍然是人工智能时代大数据的组成部分和数据系统的基础。

如果说Doug Cutting的看法更多的还是处于理论和宏观层面,英特尔公司软件与服务事业部副总裁,系统技术和优化部门大数据技术总监马子雅则看到了大数据在人工智能时代的发展和应用过程中“理想与现实的巨大差距”,“我们和客户打了这么多年的交道,尤其最近两年一直在做人工智能、深度学习方面的工作,我们发现性能并不是客户最大的痛点,他们有三方面更大的痛点。”

马子雅表示,第一,企业用户希望人工智能平台可以利用资深的海量数据,也希望利用现有的Hadoop、Spark大数据平台连接人工智能系统,让现有的大数据基础设施、已有的分析应用直接和人工智能结合,而不是让人工智能单独作为一个独立的功能存在;

第二,传统的深度学习系统架构是单节点或双节点的,但越来越多的实践证明,深度学习需要在集群式上进行扩展,要求分布式、集群化,但很多将Spark和Caffe、TensorFlow结合的方法并不有效,无法实现预想中的数据并行及模型秉性,只是“把产品糅合都一块儿,根本无法做到真正的分布式的深度学习”。

第三,深度学习、人工智能的工作是有成本的,很多企业用户希望能够降低这个成本,也无力承担高昂的新集群、新系统的代价,“部署一个新的集群是非常昂贵的,能不能利用现有的集群,直接在上面添加深度学习的功能”也是一个痛点;

“最后才是高性能,这一点目前是关注度最高的,比如说缩短模型训练的周期,加快深度学习的速度,快速的读取数据等等”,马子雅表示,“(从数据的角度来说)我们不能用传统的路子来做深度学习,尤其是分布式的深度学习”。

基于 Apache Spark 的分布式深度学习框架BigDL是英特尔“为整个数据分析和机器学习过程提供比现有框架更加统一和集成化的体验,进一步帮助用户减少端到端的学习延迟,实现总体拥有成本的降低。”而设计的深度学习框架。

BigDL将常见的深度学习框架与Spark结合,实现三点优势:第一,它资深的深度学习功能与已有的深度学习框架的功能,比如说Caffe,是完全一致的,所以深度学习的功能是非常丰富的;第二,它能够无缝的与Spark、Hadoop相结合,与分布式的海量数据相结合;第三,可以非常自然地利用Spark的可扩展性做到数据并行,在一个集群上快速的扩展,比如说到上百个节点;第四,可以利用BigDL在现有的集群上直接生成深度学习系统,成本更低,且利用英特尔新的Skylake-SP处理器、英特尔优化过的数学核心函数库、多线性优化方法,可以提高性能。

马子雅说,随着新版本即将发布,BigDL对Python的支持会更好,会支持载入Caffe、Torch、TensorFlow的预训练模型,以及还会有更丰富的RNN的支持:“在上一个版本发布后,我们与Cloudera、银联合作,构建了一个端到端的深度学习流水线,它建立在BigDL和Spark上,包括开始的数据收集、存储、处理,以及特征提取、深度学习、模型的部署,帮助银联来做欺诈交易的检测。”

随着大数据生态环境的丰富和完善,以及人工智能市场激发出的越来越多的数据科学工作,Cloudera如今也推出了Cloudera数据科学工作平台,据Cloudera联合创始人兼首席技术官Amr Awadallah介绍,这一平台既满足了数据科学家对使用完善的环境进行编程,结合Spark、Hadoop和深度学习框架(比如TensorFlow、BigDL)的需求,也满足了数据的管理者对数据存储集群的安全、稳定和可靠性的工作要求,在这一平台中,Cloudera还是用了包括Kubernetes在内的容器技术,保证数据集群“不会因为某个点出现问题而出现崩溃”。


标签:大数据 人工智能 

LecVideo
论坛与活动