英伟达首席架构师:GPU性能濒临极限,但我们还有很多压榨套路

百家 作者:机器之心 2021-05-08 19:36:39
选自hpcwire
作者:John Russell
机器之心编译
机器之心编辑部

Bill Dally:「位置就是效率,效率就是算力,算力就是性能,性能为王。


说到 GPU 的未来,没有人能比英伟达首席科学家,美国国家工程院、文理科学学院院士,计算机架构大师 Bill Dally 更有资格发表观点了。

英伟达的成功是毋庸置疑的。这家公司根植于 GPU 市场,利用自己研发的产品及不断加速的计算需求满足了 HPC 和 AI 发展的需要。2020 年,英伟达收购了 Mellanox,开始了其雄心勃勃的扩张,现在它正在努力完成对 Arm(处理器 IP 公司)的购买。一路走来,英伟达作为一家主要做 GPU 的公司,凭借 DGX 系列产品引入了更加完整的系统业务。

英伟达首席科学家兼高级副总裁 Bill Dally 认为,研发一直是并且仍然是英伟达当前和长期成功的关键因素。在 GTC 2021 上,Dally 简要介绍了 Nvidia 的研发团队和一些优秀的项目。与公司本身一样,Dally 的研究团队也在不断扩大。Dally 说:研究团队最近增加了「GPU 存储系统」的工作,并刚刚成立了「自动驾驶汽车研究组」。

本文介绍了英伟达研究团队的内部结构,并包含对 Bill Dally 的访谈内容:

Bill Dally 表示:「Nvidia Research 可以简单分为供应方和需求方。」其中,供应方尝试开发直接满足产品需求的技术,以制造更好的 GPU,包括构建 GPU 的 VLSI 设计方法,更好的 GPU 架构和更好的网络技术,以将 CPU 连接到一起并连接到更大的数据中心编程系统。「我们最近成立了一个新的 GPU 存储系统小组」 Dally 说道。

Dally 表示:「Nvidia Research 的需求方旨在推动对 GPU 的需求。我们有 3 个图形研究小组,因为我们需要持续提高实时图形处理的标准。只有这方面做得得足够好,最终用户借助一些 CPU 就能免费使用的集成显卡才能更好,这样就不再需要独立 GPU。通过引入光线追踪,通过引入更好的直接和间接照明,我们可以不断提高人们对实时图形处理的要求。」

人工智能的发展已迅速让 GPU 提升成为当务之急。他说:「实际上,我们有 5 个不同的 AI 实验室,AI 的发展已经成为 GPU 需求增长的巨大推动力。」

几年前,英伟达开设了一个机器人实验室。Dally 说「我们相信英伟达的 GPU 将成为未来所有机器人的大脑,我们希望引领这场革命,因为机器人已经逐渐演变成与环境和人类互动的事物。我们还刚刚成立了一个自动驾驶汽车研究小组,为 DRIVE 产品的技术铺路。」


Dally 说英伟达会将人们从不同的研究中召集到一起,进行一些高影响力的项目。他说:「我们进行了开发树遍历单元(TTU)的工作之一,通过引入光追核心(RT core)实现实时光线追踪。」

Dally 一直坚信专注于产品的研发能够得到长期稳定的回报。Dally 表示:「多年来,研发团队对英伟达的技术产生了巨大的影响。英伟达几乎所有的光线追踪技术都是从 Nvidia Research 开始研究的,这些技术是了我们专业显卡的核心。最近开发的 RT 核心,已将光线追踪引入到实时图形处理和消费级显卡中。

早在 2012 年左右的时候,英伟达就以研究项目的形式开发了 NVSwitch,从而使英伟达进入了网络领域,之后英伟达又进入了深度学习和 AI 领域,并与斯坦福大学合作开发了 cuDNN。如今,英伟达像许多其他公司一样,正在研究光通信技术,以克服现有线技术带来的速度瓶颈。 

Dally 说:「当我们开始使用 NVLink 和 NVSwitch 时,是因为我们的愿景不仅是构建 GPU,而是还需要构建一个包含许多 GPU 的系统,并带有与较大数据中心的交换和连接。为此,我们需要 GPU 之间相互通信以及与系统其他元素通信的技术,但因为一些原因这变得越来越难。」

罪魁祸首是交换速度过慢和「接线限制」。「我们想要的是每秒在数毫米大小的芯片之间传输尽可能多的数据,我们希望构建 100 TB 的交换机,并且需要每秒从该交换机获取 100 TB 的数据。」

因此,我们希望每毫米芯片边缘每秒超过 1 TB,并希望至少能够传输 10 米以上的距离。

事实证明,实际上构建 DGX SuperPod 等方案所需的电缆很少。英伟达的研究者希望将能耗降低到每比特 1 微微焦耳范围内。似乎最有希望做到这一点的技术是具有集成硅光子学的密集波分复用技术。


从概念上讲,这个想法很简单。下图展示了该方法的总体架构。Dally 描述道:「该架构从激光梳理源(laser comb source)开始,使用一种可以产生多种不同颜色光的激光器(不同颜色的光频率相差无几),并通过供电光纤将其发送到发射器。发射器中存在许多环形谐振器,它们能够分别调制不同颜色的光。因此可以采用一种颜色的光,然后以一定的比特率调制它,并且同时在所有其他颜色上并行执行此操作,并获得比特率,通过 10 至 100 米的光纤将其发送到接收集成电路中。使用环形谐振器拾取不同的颜色,这些颜色现在可以通过比特流打开或关闭,然后将光电检测器和跨阻放大器发送到接收器。」


Dally 设想了未来的光学 DGX 系统,其中 GPU 将通过有机封装与电气集成电路通信。如下图所示,该电气集成电路将 GPU 连接起来,并调制了光子集成电路上的各个环形谐振器。光子集成电路从激光器接收供应光纤,并将该光纤驱动到接收器。接收器将具有 NVSwitch 以及相同的光子集成电路。在接收端,环形谐振器将波长拾取到集成电路,并驱动开关。



Dally 解释道,实现这一目标的关键是光学引擎。它上面具有一些元件,包括可以从 GPU 接收短距离电接口的主机电接口、用于调制环形谐振器和控制电路的调制器驱动器(可以精确保持环形谐振器的温度以保持频率稳定)、将能量耦合到连接交换机的光纤中的波导。

许多电子系统和设备制造商正在努力解决互连带宽的问题。可能在不远的 GTC 大会上,当英伟达研发团队着手解决新项目时,产品团队会展示新的光学互连系统。

Dally 表示:「我们正在尽一切努力去做可能影响英伟达未来的事情,希望我今天介绍的项目能够成功,成为下一个光追核心。」

向 Bill Dally 发问

英伟达在哪里招募工程师?

「我们在地理上已经非常多样化,我们的办公室遍布北美和欧洲,而人才的增长是我们推动地域扩张的动力。几年前,甚至在收购 Mellanox 之前,我们就在特拉维夫开设了分部。因为当地有很多人才不想搬到加州的圣塔克拉拉,所以我们就在当地创建了一个办公室。」

不过,Bill Dally 认为这方面还有很大的拓展空间。首先是在亚洲的办公室,亚洲有很多人才,那里有很多有趣的工作,而且非洲和南美也拥有英伟达需要的的人才库。

比起量子计算,当晶圆加工技术接近亚纳米级尺度时,计算的未来将如何?

这是一个很好的问题,Bill Dally 表示自己确实也考虑了很久。

「我想我们还有几代人的时间。安培架构只用到了 7 纳米制程,而我们可以清楚地看到 5 纳米和 3 纳米的发展道路,这些节点的芯片运行方式仍然是经典方式。」

量子计算和传统的晶圆厂是两条截然不同的路。量子计算是基于约瑟夫森结的技术,或者使用光子学,或者使用被捕获的离子。Bill Dally 表示,英伟达已经成立了一个研究小组来研究量子计算,目前来看距离最终成果还挺遥远的。但是其策略是通过类似最近宣布的 cuQuantum(SDK)的功能来启用「量子计算」,它可以帮助人们模拟量子算法(直到量子计算机可用为止),并最终在英伟达 GPU 上运行那些量子计算机的经典部分。

英伟达是否会开发神经形态芯片来支持尖峰神经网络?

简单地说:不会。

Bill Dally 表示,他已花了很多时间研究神经形态计算,然后问自己这一新兴技术对英伟达是否有帮助。对于神经形态计算,答案是否定的。原因有三点:

首先,尖峰表示法是一种效率很低的数据表示法,因为要多次向上和向下切换一行以表示一个数字。要使平均动态范围为 256,则必须切换 128 次,并且所需的能量可能是整数表示法的 64 倍。

然后是模拟计算,当考虑转换存储数字计算的需求时,它的能源效率较低。

最后,如果众多尖峰神经网络模型能比诸如 BERT 的语言模型或 ResNet 的图像模型更好,那么人们会使用它们,但显然不是。

深度学习技术是否可以利用稀疏性?

这有点跑题了,但答案是肯定的。

神经网络从根本上来说是稀疏的。Bill Dally 等人在 2015 年的 NeurIPS 上发表过一篇论文,该论文表明,将大多数卷积层的密度降低到 30%,或者将大多数全连接层的密度降低到 10%或更低,都不会损失准确性。因此,Bill Dally 认为达到安培中稀疏矩阵乘法单元所需的 50%实际上非常容易。

实际上,人们已经看到,矩阵乘法的全面应用带来了 2 倍的提升。即便考虑到非矩阵乘法(例如归一化步骤、非线性算子和合并)、阿姆达尔定律,在 BERT 上应用稀疏张量核仍然获得了 1.5 倍的速度提升。

参考内容:
https://www.hpcwire.com/2021/05/04/crystal-ball-gazing-at-nvidia-rd-chief-bill-dally-talks-targets-and-approach/

亚马逊云科技线上黑客松2021


这是一场志同道合的磨练,这是一场高手云集的组团竞技。秀脑洞、玩创意,3月26日至5月31日,实战的舞台为你开启,「亚马逊云科技线上黑客松2021」等你来战!

为了鼓励开发者的参与和创新,本次大赛为参赛者准备了丰厚的奖品,在一、二、三等奖之外,还特设prActIcal奖、creAtIve奖、锦鲤极客奖、阳光普照奖,成功提交作品的团队均可获赠奖品。

识别二维码,立即报名参赛。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接