酷应用

超越英伟达V100，这家以色列公司发布了挑战GPU的AI训练芯片

百家作者：机器之心 2019-06-20 05:55:52

机器之心报道

作者：李泽南

6 月 17 日，以色列芯片公司 Habana.ai 发布了 Gaudi HL-2000，这是一款定制化 AI 处理器。该公司称，全新的 Gaudi 处理器性能超过了目前在训练神经网络任务中最为强大的英伟达 Tesla V100——而且性能是后者的近四倍。

昨天，在北京举行的人工智能大会（O'Reilly AI Conference）上，Habana 向我们详细介绍了新产品的特性。

Habana Labs 首席商务官 Eitan Medina 在活动中向我们介绍了 Habana 的强大技术。

在这块芯片之上，Habana 也推出了 PCIe 4.0 接口板卡，以及一台 8 处理器的服务器。Habana 表示，这些设备可以成为训练超大规模数据集的基础。

Gaudi 并不是 Habana 在人工智能芯片上的第一次尝试。这家芯片公司成立于 2016 年，在去年 9 月，Habana 曾推出名为 Goya 的人工智能推理芯片，并已拥有很多客户。而在去年 11 月，Habana 完成了价值 7500 万美元的 B 轮融资，英特尔是其领投方。

领先的推理芯片 Goya

去年 9 月，Habana 公司推出的 Goya 人工智能芯片着实吸引了一把眼球。其在 ResNet-50 上，四倍于英伟达 Tesla T4 的处理性能，两倍的能耗比，仅仅 1.01ms 的处理延迟让人们感受了 ASIC 的强大能力。

「我们在 2018 年 9 月发布了推理芯片 Goya，并于年底将产品推向用户。在九个月后的现在，这款产品仍然是在市场上领先的。」Habana Labs 首席商务官 Eitan Medina 表示。

Habana 拿出了英伟达在 GTC 上经常使用的比较方式：与目前最强劲的 GPU 相比，8 块 Tesla V100 的算力相当于 169 个传统 CPU————而相同情况下只需要 3 块 Goya 计算卡就能完成任务。

为何在更小的功耗下，Habana 的芯片有着更强的机器学习算力？答案在于架构。「CPU 和 GPU 的架构是以解决和深度学习完全不同的任务为导向构建的，CPU 面向通用计算，GPU 面向图形处理，」Habana 首席商务官 Eitan Medina 介绍道。「在人工智能方面，GPU 的成功几乎是『偶然』的，因为它具有更高的并行度。然而如果你从零开始，观察神经网络的特性的话，投入足够精力，你就可以获得一个更好的架构。」这就是 Habana 正在做的事。

Goya 是一种采用 PCIe 4.0 接口的计算卡，双槽位，全高全长，可以直接兼容现有服务器的接口，带来更强算力。Habana 表示，目前该公司已经获得了 20 余个客户，这些公司正在评估这种新类型的芯片。

可以「无限扩展」的 AI 训练芯片 Gaudi

人工智能的训练任务需要使用大型数据集，让模型经过前向传播、反向传播不断更新权重，从而让算法展现出「智力」。在训练模型时我们需要着重考虑准确度，同时存在大量数据吞吐及并行化的运算。

而在深度学习的推断/预测时，模型通常只需要使用前向传播，延迟成为了关注的重点。

不同的需求意味着只有使用不同种类的芯片才能在两个方面都实现高效率。目前，人们通常使用 CPU 处理推断任务，GPU 用于训练，英伟达的 GPU 很长一段时间是不分训练和推理的，但现在也有了 Tesla T4 这样专攻推理的芯片。

Habana 很早意识到了这一点，所以其产品线分为推理和训练。

最近推出的 Gaudi 芯片专门用于深度学习模型的训练，采用台积电 16nm 制程。在 ResNet-50 模型的训练中，其每秒可以处理 1650 张图片（batch = 64）。在完整服务器系统条件下的对比中，同为 650 个处理器，Gaudi 的处理能力是英伟达 Tesla V100 的 3.8 倍。

这并不是 Gaudi 唯一的优势，Habana 花费大量时间介绍了其芯片使用以太网互联的优势。「我们认为芯片之间最好的连接方式是 RDMA，它最早只出现在 Infinite Band 中，现在已能用于标准的以太网环境中了。」Medina 表示。

Gaudi 是今天唯一的，可以在芯片里集成 RDMA 的芯片。而且 Gaudi 中集成了 10 个 100GbE 带宽的 RoCE RDMA 以太网端口。这意味着 Habana 的用户可以用常规以太网环境实现扩展。这非常特别，因为其它厂商都在用特殊的连接方式，而 Gaudi 使用的是通用的以太网环境。

相比之下，英伟达的 Tesla V100 只有 1 个 100 Gb RDMA Nic，还需要有 PCIE Switch 进行互连——而 Habana 的产品把网络端口集成在芯片内，可以实现更强的并行化。

并行处理就是在训练过程中把任务分解到每个处理器上，再通过高速网络把运算结果联系到一起。Habana 的芯片通过以太网链接可以实现树状结构的层级化，达到接近完美的吞吐效率。

「DGX-2 的 NVLink 端口扩展性有限，最大支持 16 块 GPU 的并行处理，而 Gaudi 可以支持对外的互联，做到几百块处理器的并行化。」Medina 说道。

在大规模并行运算的情况下，Gaudi 可以实现 Tesla V100 接近四倍的性能。Habana 称，在单卡情况下 Gaudi 的处理速度也有 Tesla V100 的 2.7 倍，而功耗仅为后者的一半。

在 Gaudi 与 Goya 芯片推出之后，Habana 已经拥有了人工智能商业化芯片的完整解决方案。

「从零开始设计芯片」

Habana 的深度学习处理架构被称为 Tensor Processor Core（TPC），而 Goya 芯片中还集成了 GEMM 矩阵乘加单元，这可以让 Goya 处理不同类型的模型。

这家公司的开发者们认为，人工智能芯片要在计算能力和延迟上都表现完美，而以往出现在很多论文中「几分钟训练 ResNet」并不是真正能够应用在生产环境中的方式。

「在 ResNet-50 的训练上，批尺寸这一参数很重要。采用 GPU 训练通常需要很大的 batch size，而 Goya 可以用很小的 batch size 实现高效率训练，在计算时可以让它设置为 1、5 和 10，这样训练延迟也可以很低。」Eitan Medina 表示。

低延迟的体验对于自动驾驶等场景具有优势。而在云计算环境下，目前的 AI 云服务无法对单卡再做虚拟化分配，但 Goya 因为计算的延迟很低，可以把一张 Goya 卡分成 7 个部分分给用户，并保持高效率。这样意味着 Habana 的客户可以进一步提高利润，降低云服务价格。

由于目前的大多数深度学习模型都在 CPU 或 GPU 上完成训练，Habana 为客户提供了一套环境，可以帮助开发者快速部署产品。其软件名为 SynapseAI，支持 ONNX、MXNet、TensorFlow、Caffe2、PyTorch 等深度学习框架与模型交换格式。

「如果人们使用其他架构训练模型，将其部署在 Goya 的推理和预测平台上不会有任何问题。」Medina 称。

Habana 正努力帮助构建开源社区，因此也收到了一些回报。去年 facebook 开源的深度学习编译环境 Glow 就首发支持了 Habana 的芯片，此外，Linux 也已集成了 Goya 的驱动。

对于期待使用专用芯片处理人工智能任务的公司来说，Habana 提供的芯片可以带来最大的灵活度。

Habana 的愿景是成为人工智能芯片领域的领导者。这家公司目前已有 150 名员工，其中大多数为研发人员。公司在以色列、波兰两地成立了研究中心，另外在美国加州和中国也设有分支机构。

「训练 AI 模型所需的算力每年都以指数级增长，硬件设备必须满足这种迫切需求，并大幅提高生产力和可扩展性。凭借 Gaudi 的创新架构，Habana 可以带来业界最强的性能，结合标准以太网连接，实现无限的可扩展性，」Habana Labs 首席执行官 David Dahan 表示。「Gaudi 将打破人工智能训练处理器的现状。」

未来，Habana 计划每 9 个月推出一款新产品。明年这家公司即将推出基于 7nm 制程的新一代推理芯片。