酷应用

新图形、新AI！解析Imagination新一代GPU及神经网络加速器

百家作者：微型计算机 2019-01-13 12:52:10

Imagination是图形业界的老玩家了。说起来最近一次Imagination受到从行业到终端用户的关注，还是苹果宣布全面使用自研GPU架构，放弃使用Imagination授权的消息被爆出的时候，彼时Imagination的股票暴跌，大家都对这家企业的未来发展表示担忧。

不过在经过一些财务运作之后，Imagination找好了新东家，又继续在产业道路上努力。这一次，Imagination带来的是全新第九代PowerVR的高端产品系列GPU和第三代神经网络加速器。

Imagination近期又有新品发布了—旗下全新第九代移动GPU架构中的高端产品型号和全新第三代神经网络加速器。从这些产品来看，Imagination很可能通过移动图形和人工智能的发展，进一步拓展自身在诸如自动驾驶，智能机器人方面的市场，提高自己产品的竞争力，进一步拓展市场，维系Imagination的发展和壮大。

Furian架构加持

PowerVR 9系列全面更新

在《微型计算机》2018年2月上的《开启移动AI大门解读PowerVR第九代图形、神经网络产品》一文中，我们曾详细介绍过PowerVR 9系列中低端产品，主要是PowerVR 9 XE和XM两大系列的相关情况。

这两个系列使用的还是比较老的Rogue架构，而当时PowerVR其实已经有全新的Furian架构了，并且用在了高端的PowerVR 8 XT等GPU产品身上。现在，Imagination终于推出了同样采用Furian架构的第九代PowerVR GPU，它的型号为PowerVR 9XTP，而9XMP和9XEP两款虽然依旧是Rogue架构，但是也做出了很多改进。

▲虽然面向入门级市场和中端市场的9XEP和9XMP没有更新架构，但还是带来了大量新的特性。

更宽、更高效、更先进 Furian架构浅析

PowerVR目前广泛使用的Rogue架构从PowerVR6时代就开始使用了，整体效能和表现相当不错。但是随着时间发展，Imagination通过研究发现，Rogue架构还存在比较大的改进空间。于是，Imagination在Rogue架构上通过深入地研究，推出了全新的Furian架构。

Furan架构相比之前的架构，其核心改进之处在于两个方面，一个方面是架构体系架构进一步优化，整个架构层次更为明确，数据流向和布局更为明晰，可扩展性也做出了加强。另一个重要的改进在计算单元上。Furan的计算单元采用了MAD+MUL的方案，不再是之前的双MAD的方案。

▲9XTP采用了全新的架构设计

从理论上来说，双MAD ALU平衡性要更好一些，并且双MAD的架构理念更为简洁。问题是MAD单元所占晶体管数量更多，体积更大且更耗电，并且在一般应用中很难充分给两个MAD足够的计算资源。因此Imagination在权衡之后，将其中一个MAD单元更换成了MUL单元，新的MUL单元使用的场合更多，能够覆盖更多的应用并且能够更容易地填满，在计算中晶体管效率更高。

此外，Furan还扩大了最基本的计算单元的规模，从之前的16提升到了32，也就是一次可以处理32个数据，与此类似的波前阵列也相应扩大至32，这使得相应的程序调配的相关部件的压力降低，效率得以提高。

功能方面，Furan增加了不少面向新一代计算需求的功能，包括支持多线程多任务数据执行，比如微内核固件控制，比如帧缓冲和几何无损压缩，比如新的安全和虚拟化技术等。毕竟Furan面向的是7nm时代的4K、VR等计算需求，Imagination还希望Furan架构能够打入ADAS、神经网络等新的市场。在新的工艺和技术的加持下，Imagination宣称Furan架构能够带来相比PowerVR 7XT架构大约35%的着色器性能提升和80%的填充率效能提升，综合性能能够提升70%~90%。

虽然面向入门级市场和中端市场的9XEP和9XMP没有更新架构，但还是带来了大量新的特性。

三大产品上阵

9XTP、9XEP和9XMP现身

从Imagination给出的产品定位来看，PowerVR 9系列目前分为三款产品，分别是9XTP、9XEP和9XMP。它们的定位各有不同，其中定位最顶级的是9XTP采用最新的Furan架构，定位于中端用户的是9XMP，定位于入门级用户的则是9XEP。需要注意的是，9XMP和9XEP依旧采用的是上一代Rogue架构。

▲9系列家族三大产品系列

在这里，本文需要对9XEP和9XE、9XMP和9XM这两对产品做一些说明。在之前的文章中，本刊介绍了9XE和9XM这两款产品，而新的9XEP和9XMP则可以看作是之前两款产品更进一步的加强版本，因为它们不但加入了一些新的技术，同时还提高了相应的规格与规模。

此外，Imagination还指出，9XEP和9XMP之间的区别在于其面向的市场以及Imagination计划如何规划产品在填充率、分辨率或者游戏、计算方面的性能。目前的结果是9XMP在图形和计算性能上更为出色一些，面向游戏、计算和AI市场，而9XEP则更倾向于GUI和轻游戏市场，这些用户往往不会过分关心重度3D游戏，主要以普通应用和一般小游戏为主。

除了市场化分外，Imagination还使用不同的规格和性能来区分不同的市场需求，并给出了详细的性能指标值。根据Imagination的数据，顶级的9XTP面向顶级游戏玩家，能够提供更好的能效比和更高的性能，其填充率至少应该达到8 Pixels/Clock，计算能力应该至少达到192 FP32 Ops/Clock。面向中端主流市场的9XMP以较好的游戏质量和齐全的规格支持为主，性能方面填充率达到4~8 Pixels/Clock，计算能力为128~256 FP32 Ops/Clock。

▲9系列家族根据性能和规格面向不同的市场

需要注意的是，9XMP的计算能力甚至超过了最基本配置的9XTP， Imagination解释这是充分考虑了用户需求和市场反应才做出的决定，可以根据实际的需求自行配置。入门级的9XEP面向普通用户和一般轻游戏用户。在性能方面，它的填充率达到1~8 Pixels/Clock，计算能力为16~64 FP32 Ops/Clock。

说完了具体产品，再看看架构方面的改进。在采用较老Rouge架构的9XEP和9XMP上，Imagination加入了专用的纹理增强缓存和更大的系统及缓存，以实现更好的性能。9XEP新加入了时序改进的能力，可以实现更高的时钟频率从而提升性能。9XMP则大幅度加强了游戏效能，包括增强的各向异性过滤和阴影采样能力等。

计算性能方面，这两款产品的ALU管道都可以进行加倍配置，允许用户在特定条件下实现32宽度的单集群ALU/TPU配置（前代只允许16宽度），这将大幅度提高计算密度。另外，9XMP还对于包括缓存、原子操作、数据速率等进行了改进，提高了计算效能。Imagination给出一些数据显示，在手机游戏《全军出击》中，PowerVR 9XMP比华为麒麟970、三星Exynos 9810异性过滤的性能提升2倍，阴影样本性能提高4倍。

▲Imagination宣称9XMP在纹理和阴影上的表现更出色

PowerVR 9系列在中低端产品上进行了改进，在高端产品上就更是改天换地了。除了之前提到的全新架构带来的增强外，9XTP的每个单元配置40宽度的ALU单元，大大加强了计算密度的同时还在整体设计上对功耗、性能、面积三者进行了优化，使得面积进一步减小。另外，YUV加速也重新改进，性能提升了2~3倍。根据Imagination的数据，9XTP的性能密度提高高达50%，更适合在高端处理器中使用。

除了上述内容外，Imagination还特别提到自己在数据压缩方面的进步。Imagination之前公布了新的帧缓冲图像压缩技术，也就是PVRIC4，目前已经使用在新的9XEP、9XMP和9XTP三款产品上。简而言之，PVRIC4实现了至少2:1的图像压缩，无论是使用有损还是无损压缩处理管线数据，综合下来都能够实现至少50%的压缩水平甚至更高。这个功能在硬件中控制和执行，对一些需要数据完整性检查的应用，用户也可以考虑将其关闭。对于给定的图像，Imagination声称其即使使用有损模式，至少能够实现视觉无损。

▲新的压缩算法带来了更高的效能

▲新压缩算法在各类测试中的表现都比较出色

总的来看，本次Imagination的新品在产品竞争力和技术实力方面还是值得肯定的，但是和以往一样，它的最大的问题还是市场客户匮乏。实际上人们不太可能在主流手机产品中看到Imagination的GPU。这主要是由于ARM的捆绑策略、苹果和三星在GPU上的自研导致的，Imagination几乎在市场上找不到合适的买家。不过好在汽车和智能驾驶技术的兴起可能给Imagination带来了新的机会，目前Furian已经加入了相关汽车优化的内容，再加上下文要讲述的3NX，Imagination可能在汽车上能够找到自己新的生存空间。

进一步拓展AI市场

PowerVR 3NX神经网络加速器

去年9月，在Imagination推出型号为PowerVR 2NX的神经网络加速器之后，这款产品就得到了业内不少用户的关注，甚至有一些用户将其用作小型设备的推理模块使用，而且从结果来看，似乎也还不错。所以这一次Imagination准备再进一步，推出更强大的PowerVR 3NX，搭配Rogue GPGPU等，实现自己在AI和汽车等市场上的突破。

▲PowerVR在DNN方面产品日渐丰富

可能Imagination自己也没有想到，自家的第一代神经网络加速器是和一个不公开身份的客户合作后才推出的。可能也是这次合作让Imagination看到了这个市场的机会。

在9个月之后，第二代2NX发布，具有两种单核心设计。不过显然的是，仅仅两种核心选择并不能覆盖更多的市场。因此在第三代产品上，Imagination带来了多达5种单核心设计，4个多核心方案以及3NX-F中的特殊可编程和灵活搭配方案。就性能数字而言，单核心最高的是AX3595可达10TOPS，当扩展到16核心时，可以达到160TOPS之多。

具体到架构方面，目前Imagination没有给出任何3NX相关架构的公开信息。但是还是有一些技术改进的内容得以披露。

▲Imagination没有公布3NX架构的详细信息，但是给出了一些具体改进情况。

首先要谈的就是Imagination引以为傲的数据压缩部分。3NX采用了一种全新的无损数据压缩方案，可以在较低的位深度下具有显著的优势，这能够降低神经网络模型的大小，并减少其对带宽和内存的占用。

▲3NX系列加入了新的数据压缩方法

其次，单个3NX核心的处理性能有所提升。其中单个3NX核心的峰值处理速度可达4096 MAC/Clock，这个数据是2NX 2048 MAC/Clock的两倍，2NX达到这样的计算能力是通过256x8位MAC引擎实现的，所以3NX可能内部集成了更多的计算引擎，并提高了频率。

第三，3NX加入了对TrustZone的支持，这使得数据可靠性更高。用户可以根据需求自行配置选择保护神经网络模型或者权重，或者中间数据、或者输入输出数据等，非常自由。

▲3NX的安全模块得到了加强

总的来看，根据Imagination宣传数据，3NX性能可在相同的芯片面积上较上一代产品提升40%，性能效率提高近60%，且带宽需求降低35%，产品也更安全。

▲3NX家族目前支持多核心配置，性能更强。

在产品的搭配方面，之前Imagination有建议用户使用PowerVR GPU搭配2NX来进行神经网络加速，所以虽然Imagination现在还没有公布相关配置，但是3NX相应的GPGPU加速配置的推出只是时间问题。

▲Imagination公布了相关计算架构的SDK

目前Imagination仅仅发布了基于单核心的PowerVR Series3NX-F的IP配置方案，这一新方案所具备的特点在于带来了能够扩展的可编程和浮点支持，它可以充分利用OpenCL/SYCL和Imagination进行API/devkit/Tools等相关的加速合作。接下来一段时间，Imagination还将发布多核心的配置方案，能够进一步加强性能。