WatchStor.com — 领先的中文存储网络媒体 | 51CTO旗下网站

新闻资讯 > 高端存储 > 正文
GPU的狂欢:忘记矩阵吧,张量才是王道
作者: WS 2017-05-31 09:54 【WatchStor】

Nvidia举办了最大的GPU技术大会(GTC大会)。GPU迅速成为意料之中明星。

在开会之前我分享了四个问题,我希望能够得到答案:

下面就是这些问题真正所指的分析。

问题1. P100以后会是什么呢?

P100是去年开始发布的,它本身就是一个壮举。如果公司过去一年的财政表现是一个标志的话,人们依然在谈论这个事件。在GTC17上,我们能得到更多吗?当然,NVIDIA没有失望。我们看到了真是的硅和其详细规格,以及真实的基准实验:对问题“所以,接下来会是什么呢?”来说,这是一个非常具有决定性的答案。

今年第三季度将会发布V100,这对P100来说将是一个很好的发展步骤。按字母表顺序的话,接下来将会是Kepler和Maxwell。总体来说,与P100相比,其速度将快1.5倍,这是适合深度学习内核,多亏了Tensor核,这是特意为AI工作负载应用而制作的。总体来说,与P100来比,其速度将快5倍,这是一个更加实际的目标。

815mm2是非常健壮的,拥有各种触发器,并且可以达到300瓦,它是很大的,也是非常快的,而且是非常热的,所以说它是一个具有最大能量的芯片,它能够被用在性能第一或者能量第一模式的优化模式中。

下面我们简单比较一下:

请记住,计算速度的分类从来都是“纸上说的,但是所有人都不能看到它。”以“保证不超过,但是如果星星被对齐了,你就能看到它了。”以“可能,如果你把事情进行了优化”,以“典型的,但是它可能会比较低”。一般来说,你在看最大速度的同时,最好能注意一下最小速度。

对于更快能力的工作负载来说,优化工作框架和系统软件是可以行得通的,GPU和其他的我们成为高密度处理器(HDP)是行之有效的方式。

这几天我们的观点是,数字化就意味着超大量的数据,这就使得这大量的数据变得更加像HPC问题或者AI问题。芯片的目标是起到平衡作用。

所以说,标量是什么呢?

一个单一的数字是“标量”(零维,或者“索引”)。一行数字是“标量”(一维,或者索引)。二维行列的数字就是一个“矩阵”。标量就是这样一个数学对象的广义定义,一个遵守特定变换规则的n维对象。

在深层神经网络(DNN),你可以看到一层层的“神经元”系数,必须计算和聚合,必须跟踪,所有这些都可以很好的抽象成为张量。张量是物理学、相对论、流体力等的通用语言,但是,它们在AI的使用中使得它们成为语言中的新领地,相当多的URL已经开始采用这种形式了。

那么,摩尔定律呢?

Nvidia表示,相比于P100/Pascal峰值中的万亿次浮点运算,其芯片有5倍性能的提高,其性能是M40/Maxwell的15倍,M40/Maxwell是两年前发布的。计算一下,这种速度提升已经快于摩尔定律,事实上,已经是4倍了。

NVIDIA芯片提供账单5x改善P100 / Pascal峰万亿次浮点运算,和15x在M40 /麦斯威尔两年前推出。做数学题,是的,它比穆尔定律更好的速度提高,事实上超过4倍的更好。

你可能会问,为什么或者如何做到的呢?这个问题的答案可能是:我们过去通过提高频率来获得更高的速度,以更快的速度来做相同的事情,增加芯片上的电路数使得CPU速度更快。这就像建设一个更加豪华的宫殿。当CPU可以多核的时候,所有的事情都变化了。现在人们不再建造宫殿,而是开始建造公寓和酒店。在用户的应用程序中有了更多的线程和任务,用户需要更快的速度。

各种不同类型的5120 + 2560 + 640 = 8320核,V100是一个8核的芯片。字节是遥遥领先的,但是,核也像字节一样是可以计算的。

问题2.客户端的变化是什么呢?

Nvidia推出了新的桌面巨兽,DGX工作站,有4个V100。在1.5K瓦,你或许以为它会有一个很大噪音的风扇,但是它是通过液体来进行冷却的。关闭循环你也不必给水管工打电话,因为它几乎是无声的,其售价是7万美元,它绝对不是普通意义上的“客户机”,它是“笔记本电脑之神”。它就是一个个人人工智能超级计算机,但是它看起来像是一个工作站。我们都没有注意到GeForce® GTX 1080 Ti的消息,这是NVIDIA的旗舰游戏GPU,这是基于Pascal GPU的。

问题3. OpenPower发生了什么呢?

我们仍然认为服务器架构真正的战争是发生在英特尔的内部联盟和被称为义军同盟之间的,所谓义军同盟就是IBM的OpenPower产业联盟。英特尔全明星队成员有:Xeon Phi、Altera、Omni-Path(外加Nervana / Movidius)。而OpenPower的梦之队包括:POWER, Nvidia, Xilinx和Mellanox (外加TrueNorth)。所有选手都承诺无缝集成和一致性设计,而扩展队提供了同类最佳的方法。两个阵营都是非常凶猛的,两者都有各自的优势,同时他们在战略、设计和实施上也确实存在真正的差异。

去年,OpenPower产业联盟举办其GTC大会。今年不办了。尽管我们都期待两个阵营有更进一步的竞争,市场结果表明义军联盟做的还不错。OpenPower并没有犯我们此前预计的错误。

所以,我们很欣慰的看到V100配备了更快的NVLink互连技术。第二代NVLink传输数据的速率是300 Gb / s,也就是每个25 Gb/s的6路传输网络,达到150Gb/s与300GB的/ s的总数据率。

也有非常有意义的改进,就是配置了可扩展的多GPU / CPU。NVLink支持CPU和IBM的Power 9 CPU的高速缓存。这是一个相当大的交易,并且是对义军同盟的很好支持和推动。

问题4.要保持人工智能芯片的领先水平,那接下来的计划是什么呢?

人工智能芯片之间的竞争正在升温,我们希望未来几个月能够在市场上看到几款新的人工智能芯片和架构。它们是真正为人工智能工作负载进行优化的,这就意味着,低于64比特的架构和MAC指示,多管道,单独的整数和浮点路径,相关的注册/存储设计等等。

毫无疑问,你可能已经注意到在V100中的新的张量核,每一个张量核可以每一个周期乘以64。它将16位数字乘以32位中间值,并加上32位数字,从而再产生一个32位数字。这是2 FP每个周期的混合精度。其中,有640(多核处理器)都运行在1.455 GHz,64 * 2 * 640 * 1.455 = 119 +万亿次,那就是120万亿次的张量。

现在,P100才能够承担人工智能的工作负载。你能用更低的精度使得它更快吗?是的,你可以。但是,当精度降低的时候,你将需要要么表现良好的问题或更多的神经元和更多的层来弥补它。V100仍有很多其他的工作需要做,这是一个明显的差异,这就是芯片与人工智能之间的关系,在这个过程中,芯片已经不再合其他的工作负载了。

还有其他的吗?

与此同时,Nvidia还宣布发布一个协作套件平台,这个平台将展示如何通过深入学习,帮助在复杂的光纤追踪图形中来提高分辨率,这是无人驾驶汽车的技术,这可以辅助驾驶员完成驾驶工作,这是很酷的工作。


标签:高端存储 GPU 

LecVideo
论坛与活动