酷应用

业界 | Graphcore提出IPU基准：全面测试硬件运行机器学习应用能力

百家作者：机器之心 2017-10-27 04:39:52

选自Graphcore

作者：Dave Lacey

机器之心编译

参与：刘晓坤、李泽南

智能芯片创业公司 Graphcore 推出的 IPU（智能处理单元）究竟实力如何？近日，该公司的开发人员使用 Poplar 应用库中的各种机器学习应用对 IPU、GPU 和 CPU 进行了性能对比。结果表明这种芯片的确可以像宣传的那样「提升 AI 应用 10 倍到 100 倍处理速度」。

Graphcore 的智能处理单元（IPU）是一种全新的 AI 加速器，可为现在和未来的机器学习工作负载带来前所未有的性能提升。其独特的大规模并行多任务计算能力，可以让任务在单个或多个 IPU 中的同步执行，革新的数据交流结构和巨大的板载 SRAM 的组合赋予其闻所未闻的使用大范围机器学习算法进行训练和推理的能力。

在于 2016 年 10 月，Graphcore 公布 A 轮融资时，我们对 IPU 的性能做出了三项声明：

1. 相比其它 AI 加速器，它能提升 10 倍到 100 倍的性能。

2. 它不仅擅长训练，还擅长推理。

3. 它能使机器学习开发者革新那些甚至不能在最好的替代架构中运行的模型和算法。

在那之后，我们就被对声明提供更多技术细节的要求所淹没。今天，我们很高兴能分享三个预备性的基准测试以确证我们的早期目标。

我们从一开始就明白，一个完整的解决方案不仅仅是一种新型的芯片设计，软件基础建设需要具备综合性和易用性，使得机器学习开发者能尽快让硬件适应他们的需求。因此，我们很早就集中精力构建了一个完整的软件堆栈，以确保 IPU 一开始就可以获得实际应用。

我们的 Poplar 图形编程框架和应用库提供了这些能力。我们开发了 TensorFlow 的移植接口以使 Poplar 库能在其它使用中的机器学习框架中得到支持。有了这些软件工具，我们可以通过周期精确的芯片模拟和真实的硬件运行多种实际应用。

CNN 模型训练（甚至在 batch size 很小的情况下）

卷积神经网络（CNNs）在图像处理中获得了广泛应用。一个 CNN 模型通常包含了多个层以进行多种卷积计算，卷积计算的参数需要用训练算法学习得到，通常以随机梯度下降（在图像数据上重复运行模型，计算模型梯度然后更新模型参数）训练。

在训练机器学习模型的时候，batch size 是指你需要处理的数据的数目（和当前参数集平行）。由于必须在更新参数之前先处理一个完整的 batch，batch size 限制了更新参数的频率。用大型的 batch size 训练模型得到的结果可能并不理想。IPU 系统的一个特性是即使用很小的 batch size 的情况下也能得到很好的结果。

以下图表展示了在 ImageNet 数据集上训练 ResNet-50 神经网络学习图像识别的（每秒训练图像的数目）评估性能。