酷应用

GPU对决TPU，英伟达能否守住领先地位？

百家作者：AI100 2017-11-21 07:18:58

作者 | James Wang, ARK 分析师

翻译 | shawn

一年的时间，股价增长两倍以上，创始人成为《财富》杂志2017年度商业人物，这家公司就是风头正劲英伟达（NVIDIA）。在多年的耕耘之后，英伟达的凭借着先发优势和快速迭代在AI时代迅速崛起。如今，英伟达的GPU几乎垄断了AI芯片市场，着实让人眼红。不过，大部分公司都不希望自己的命脉掌控在别人手中，于是谷歌推出了TPU，然后其他公司纷纷效仿，开始研发类似的深度学习专用芯片。那么类似TPU这种的专用芯片真的能对英伟达的GPU产生威胁吗？

近日，ARK Invest的分析师James Wang撰文对这个问题进行了全面剖析，AI科技大本营对全文进行了不改变原意的翻译，希望能给读者，给整个行业一点启发。

过去两年间，深度学习的热潮使英伟达的数据中心业务增长了五倍，同时也催生了行业竞争。截至2017年，以打造深度学习专用芯片为目标的创业公司已有十几家。除此之外，Alphabet（谷歌母公司）、英特尔、高通、苹果等一票大型上市科技公司也在计划进入深度学习芯片市场。

在日益加剧的竞争下，英伟达还能在深度学习芯片市场中保持领先地位吗？哪个新来者最有可能获得成功？

GPU vs. TPU

目前的竞争主要集中在TPU（张量处理单元）领域，这是一种用于加速张量运算的新型芯片，深度学习算法的核心工作负载就是张量运算。Alphabet、英特尔、Wave Computing声称，TPU在执行深度学习算法时要比GPU快十倍。对此差距的一种解释是，GPU主要是为处理图像而设计的，芯片中的很大一部分执行单元并不参与深度学习运算。以英伟达最新的Volta GPU为例，在GPU核心（如下图所示）中，只有右侧的两个张量核心（Tensor Cores）负责执行深度学习运算，左侧的执行单元要么很少使用，要么不太适合进行深度学习运算。而新成立的深度学习创业公司造出的芯片则似乎完全由张量核心和晶载内存（on-chip memory）组成。理论上，这种TPU在利用率和性能上要优于GPU。

不过目前看来，实际情况并非如此。在研发深度学习芯片的十几家公司中，只有谷歌和Wave Computing拥有能够工作的芯片，并正在进行客户测试。虽然谷歌宣称自家的TPU在性能和能效的表现上要比GPU好很多，但是这一说法并没有经过独立验证。谷歌的第二代“Cloud TPU”的功率大概为200多瓦，和英伟达的GPU处在同一范围内。而Wave Computing表示它的3U深度学习服务器可以在40分钟内训练完AlexNet，比英伟达的P100 DGX-1服务器快3倍。如果这是真的，当然令人印象深刻，不过按照Wave Computing的说法，其TPU的处理速度本来要快1000倍。奇怪的是，这两家公司生产的新芯片都没有被广泛地使用，这或许表明TPU的实际表现并不如GPU。

TPU之所以没能超越GPU，英伟达的GPU架构进化得非常快是其中的一个重要原因。在经历了四代GPU的迭代之后，英伟达将其深度学习芯片的架构效率提升了约10倍。下方的图表显示了各代GPU每秒钟执行100万次深度学习运算所需晶体管的数量。需要的晶体管数量越少，架构的效率就越高。如果将所有芯片厂商的晶体管数量限制在同一水平，那么谁设计的架构效率最高，谁的性能就最好。

英伟达的K40是最先应用于深度学习的首批GPU之一，它每秒执行100万次运算需要使用1400个晶体管。其继任者M40移除了深度学习算法不需要的硬件（FP64单元），它只需1000个晶体管就能实现和K40同样的性能。英伟达在之后推出的P40 GPU上添加了对FP16指令添加的支持，使得P40的效能达到M40的两倍。新推出的V100芯片在每个数据通道上添加了两个专用张量核心，在架构效能上是P40的3倍。在过去几年间，英伟达将其GPU 的架构性能提升了大概10倍，这就是TPU到现在还无法替代GPU的主要原因。

软件很重要

就算初创公司在深度学习硬件上可能占有优势，但是在软件上英伟达依旧遥遥领先。和主要使用两大API（DirectX 和 OpenGL）的制图任务不同，深度学习算法的软件框架有十几种之多。而且每种框架都有自己的拥护者：谷歌使用TensorFlow；Facebook使用Pytorch 和 Caffe；微软使用CNTK；百度使用PaddlePaddle。由于英伟达最先入场，它的产品支持以上提到的所有框架，而其竞争对手大部分都只支持支持TensorFlow和Caffe。

如果深度学习编程是围绕一个领先的框架进行整合的，假设是TensorFlow，那么英伟达在软件上的领先优势就会不再那么重要。但是目前开发者倾向于使用不同的深度学习框架，因此英伟达可以利用在软件上的巨大优势领先对手。

终端设备市场有很大机会

许多创业公司选择为连接型终端设备开发深度学习芯片，而不是与英伟达在服务器市场展开正面对决。这是一个新兴市场，没有什么确立的领先者，而且每年生产的终端设备可达数百亿台，对芯片的需求很大。终端设备所使用的芯片必须符合低至1瓦的功率要求。英伟达的SoC设计所要求的功率须达到几十瓦，多数终端设备都不适用。实际上英伟达早已退出了这个市场。2017年5月，英伟达宣布将开源其深度学习加速器（DLA）的设计，DLA是Xavier芯片上一种类似于TPU的单元。英伟达此举表明终端设备市场的规模和差异太大，单靠一款芯片是无法满足客户的需求的，最终客户只好要求定制化设计，这和如今的智能手机市场很像。

在ARK看来，新来者在终端市场中成功的可能性最大。在接下来的几年时间里，智能手机系统级芯片（SoC）很可能会像之前加入GPU和modem逻辑单元一样加入TPU逻辑单元，并因此催生出一大批新的专利许可公司。例如，中国的寒武纪公司将其TPU设计许可给华为，用于生产麒麟970芯片。目前，苹果、高通等老牌系统级芯片厂商内部正在开发这种芯片技术，并且会在接下来的一或两个产品周期内推出集成TPU的系统级芯片。（AI科技大本营注：苹果在已经发布的A11 Bionic里已经集成了神经网络引擎）

除了在智能手机上的应用，深度学习还能为Mythic和Thinci这样的新兴公司提供巨大的市场机遇。虽然这些公司大部分会被收购，但是少数几家可能会成为下一个Imagination Technologies（市值5亿美元）、ARM（以320亿美元被收购）或高通（市值780亿美元）。

展望未来

在上世纪九十年代，英伟达曾与十几家芯片厂商（如上图所示）竞争，并最终成为胜利者。现在，它正与新一批的竞争对手在深度学习芯片上展开对决。尽管英伟达击退了的第一波TPU厂商，但是现在它还没有脱离危险。今年年末，英特尔和GraphCore很可能会分别发布自家类TPU产品，借助完全不同的芯片设计超越英伟达的Volta GPU。不过根据过往经验，采用特殊的芯片架构往往很难撼动英伟达的地位。Crusoe、Itanium、Cell、Larrabee和 Niagara虽然都采用了创新的架构设计，但是在商业上却一败涂地。

除非独立测试证明TPU的表现明显优于GPU，否则英伟达仍将继续在深度学习数据中心业务上占据主导地位。至于终端设备，创业公司有大量的机会来借助人工智能技术彻底变革这个市场。下一个ARM可能就在我们中间。