湃方科技武通达:边缘 AI 芯片在工业中的应用

百家 作者:QingCloud 2021-08-19 22:13:31

在 CIC 2021 云计算峰会上

青云科技的重要合作伙伴

湃方科技联合创始人 & CEO 武通达

分享了高能效边缘 AI 芯片在工业 AIoT 中的应用实践

从自研的前沿 AI 芯片

到结合场景的工业落地

有技术干货,有产业实践

青仔这就送上演讲全文

温馨提示:

搭配视频,滋味加倍~




湃方科技创始团队来自清华大学,基于边缘计算,自研了一款高能效的、用于物联网终端的 AI 芯片(人工智能芯片),并打造了一套智能物联网系统。目前主要落地在工业场景中,面向工业设备智能化,比如传统机械设备的状态监测等,整体从芯片、算法、硬件、软件进行联合优化。




AI 芯片发展趋势与技术路线


先从芯片开始说起。近几年 AI 芯片发展火热,国家也在大力推进。从趋势来看,AI 芯片的发展方向,最初聚焦于大面积、大算力,面向云端、大数据训练或者推理,以及在服务器上应用等;随着智能物联网兴起,发展方向逐步转向低功耗、高能效、低成本。我们可以看到非常清晰的脉络,从功耗极大发展到现在,很多 AI 芯片已经成为降到 1 瓦以下,甚至毫瓦、微瓦级别的小芯片。

人工智能芯片逐步进入到特定的应用领域中,包括应用在自动驾驶、小型无人机、更小的摄像头、智能传感器等。在产业界发展的前夕,人工智能芯片在学术圈的发展也有一个清晰的脉络,从 2016 年开始就有大量的面向于低功耗领域的 AI 芯片的研究。从最早的能量效率大概在 0.1-1TOPS/W,现在已经发展到超过 100 TOPS/W,可以看到基于能效驱动的人工智能芯片的发展是非常迅速的。

我们可以简单地把高能效 AI 芯片的技术体系分为几大类:基于数据复用;基于数据稀疏度,减少对云资源的浪费;或者基于存内计算,减少数据搬移;再进一步,可能有新技术或者多技术的融合。

湃方科技是从大学里出来的团队,从 2015 年开始一直在实验室里做 AI 芯片,2017 年发布第一款自研芯片,随后一两年里,我们大概自研了 9 款芯片,这是 6 款比较典型的。

我们第一款相对成熟的高能效芯片是 2018 年的 Sticker-I,也是整个技术体系的开始,基于非结构化稀疏的优化方式。当时能量效率达到 62.1 TOPS/W,领先当时同期的其他同类型芯片。随后我们逐年都在技术上进行演进,比如 2019 年,我们发布了中国大陆第一篇 ISSCC(世界学术界和企业界工人的集成电路设计领域最高级别会议)上的人工智能芯片的论文,Sticker-T,我们把数据进行时频域变换,再重新放到芯片上做推理。随后我们面向工业场景做了基于特定应用的芯片,针对实时视频流的,基于存内计算的,以及存内计算的可扩展工作等。今年我们在 ISSCC 上发的就是大规模可扩展存内计算的 Sticker-M2。可以看到在基于高能效的 AI 芯片领域,无论学术圈还是工业界最近都出现了很多新的工作,我们也是其中之一。

我们的技术体系是简单清晰的,对于一款人工智能芯片的能效优化来说,主要的工作是减少浪费,提高过程中的调度效率,减少数据搬移等操作

比如典型的技术是进行稀疏度优化。神经网络在做推理时,它的权重、激活函数里包含了很多含零项,如果能减少这些含零项的计算的话,就可以大幅度降低能耗。我们最初就是基于稀疏度和量化工作,可以看到这是典型的 Alexnet 剪枝优化的结果,可减少 96% 的浪费

我们随后采用了更新的存内计算技术,需要应用新型存储器。在经典的处理器里,最大的问题是需要先把数据从存储器里搬出来,放到计算器里去计算,计算完后再送回存储器。在实际测试中发现,最主要的能量被消耗在数据搬进搬出的过程里。大家自然而然有一个想法,如果能把存储器和计算器做在一起,自然就降低功耗了。基于这种方式,我们采用了很多非易失存储器,包括现在比较火的 RRAM 等技术。后来我们将这两个技术做了结合。比如在存内计算的架构里,同时考虑稀疏。

像这里,我们考虑了非结构化的细粒度的稀疏,因为 0 分散在结构的各个地方,就需要做细致的电路调节。同时,我也考虑粗粒度的稀疏,把整块网络裁剪掉,这两种不同的稀疏技术在存内计算结合后实现了比较大的提升。

除了权重外,我们也看到激活函数的稀疏性有一些特征,只需要适配一些标准的输入向量,就可以对计算进行加速。

这是我们近期发布的一款存内计算芯片 Sticker-IM。在这个体系里,我们应用了在存内计算进行稀疏优化的技术,来看它的能量效率,计算最高可以跑到 158,整个系统的能耗效率大概跑到 35.8 的水平。随后我们把这些技术进行裁剪,终于从学校走到产业界之中。这款芯片是我们 2019 发布的,优化后应用在我们的低功耗传感器里。在这里面,我们当时做的 Tritium 103,采用 65nm 的工艺,平均功耗不到 40mW,主要做的是全连接和 CNN(卷积神经网络)的加速,当时这款芯片是协处理器,系统平均功耗就已经做到 3.7 TOPS/W,之后我们在持续降低功耗的同时,增加了处理器 SoC。




AI 芯片在工业智能化中的落地


我们主要选择的 AI 芯片落地方向是在工业设备的智能化管理里,聚焦在传统设备,比如电机、水泵、风机、压缩机等。这些设备的典型特点是,信息化程度非常低,绝大部分是“铁疙瘩”,需要人去看。行业里的人一直在想能否加装很多传感器把数据监测起来,进行了大概 30 年左右的非常辛苦的信息化过程。随着物联网技术和更轻量级的传感器技术的产生,这个行业得以快速发展。

我们在分析工业行业的时候,发现了清晰的脉络。在工业 4.0 体系里,最早进行了流程自动化,包括 MES、ERP、工业软件;之后是对设备智能化,比如人机协同,包括数据的采集、设备的数字化、数字孪生等环节;再进一步,在完备的 IoT 系统基础上,进行数据的分析,比如对工艺参数、生产设计柔性进行分析、自动调度,这个环节我们称之为“工艺智能化”;最后将整个体系联动在一起,形成无人工厂。湃方科技目前就处于设备智能化与工艺智能化之间。

工业智能设备对 AIoT 提出相当多的个性化要求。我们以旋转机械为例,如水泵、电机等,这类设备有大有小,小型设备需要监测它特定位置的数据,比如振动数据、电参数变化、磁场变化、温度,如果需要监测轴承等空间狭小的位置,这要求采集设备要做得非常小,不能有复杂的布线、连接、安装、部署等操作,这就要求最好是轻量化、小型、无线的物联网设备,这是第一。

第二是要求功耗非常低,寿命很长。因为工业设备往往寿命很长,平均寿命二十年左右,像一个工厂大概有两三万台旋转机械,如果传感器寿命只有 1 年,维护部署代价就会非常高。

第三是监测具有特殊性,我们叫多级实时性要求。比如目前设备管理采用的主要方式——日常巡检,频率可能是一天、几天或者几个小时,对于特定的异常处理要求很高。比如在油气管道领域里,要求 4 个小时内解决设备异常,否则就会产生堵塞。还有一些情况需要紧急响应。再比如突然的电机抱死、设备参入杂物,很可能造成设备的爆炸等问题,要求故障响应速度达到分钟级甚至更低。

最后一点,成本极低,海量部署。有一个统计数据,在中国,每年旋转设备增量超过 10 亿台,这个数量可能达到消费领域的手机的规模。如果要把这些设备都监测起来的话,对于设备的成本、可靠性、安装、部署方式都提出了极高的要求。

以前的方案是什么样的呢?通过传统的工业传感器,通过有线的数据采集、有线的供电,在本地部署,像 PLC/DCS 等系统,人员在中控室或者监控大厅监测设备的运行状态。但这套体系不足以满足现在真正的需求,因为这些系统往往体积大、成本高,目前只有大型设备,比如大的汽轮机、压缩机可以用这种系统,一套系统可能一两百万,我们一个水泵可能两万,这套系统就完全应用不了,不仅是成本,在部署复杂度、响应速度上都提出很多挑战。因此,智能物联网系统就有了大展身手的空间。

基于这样的思考,我们应用核心技术打造了这样一套系统:包括智能传感器,主要面向旋转类设备去采集其机械参数和电参数,通过多种通信方式,包括公有云、私有云,最后上传到顶层的用户服务软件,给客户提供分析、辅助决策等功能。

我们有两大突出优势:

  • 一方面,我们应用了基于高能效 AI 芯片的边缘计算系统,把很多原本需要在云上做计算的 AI 算法,经过裁剪压缩,部署在边缘端,从而减少了无效数据的传输。整体来看,传感器从有线变成无线,工作寿命大幅度延长,部署成本大幅度降低,响应速度也提高了。

  • 另一方面,解决云端的挑战。因为现场环境对设备的影响很复杂,比如安装基座、传输介质、管道连接不一样,可能都对现场做数据分析的算法产生影响。这就要求对每一台设备的运行状况建立一个独立的模型,可能架构一样,但参数不同。如何进行灵活的调度和调整,成为需要我们关注的问题。

所以我们和青云科技合作,搭建了这样一套端云协同的架构。我们将最核心的边缘计算能力部署应用在里面,即在无线智能终端和边缘盒子这些终端部署边缘计算能力,对数据进行初步的分析。在边缘侧,对多维的数据进行联合分析,比如同时分析多节点的数据,或者长期的数据。在云端,和青云结合,我们做两个工作:一是在线训练,二是模型管理和下发调度。

传统的传感器就是进行数据采集,隔几分钟或者一两个小时采集一包数据,再传输到云端。一般情况下,工业设备是不出问题的,如果一分钟采一包数据,其实大量数据都没什么用,它因为一直是正常的状态,如果一天只采两三包数据,用户又觉得如果设备突然出现问题,反应不及怎么办。

边缘计算可以将数据采集和数据发送分开。首先,在本地部署一个非常小的 AI 芯片,用比较高的频率去采集数据,直接进行智能检测。如果检测没有问题,这包数据就存在节点里,如果检测到这包数据有异常,就对这包数据进行压缩、处理,上传到云端,甚至可能在本地做一些响应。最终实现一个效果:采集的频率依然很高,当发生问题就紧急响应。在这种小型无线传感器里,通信所占的功耗占比超过 90%,甚至在某些行业里,我们可以用通信的次数来衡量节点寿命,如果减少无效数据传输,寿命就可以大幅度延长,同时满足工业用户对于寿命和实时性的要求

最初我们和一些设备厂商合作,在他们的实验台上进行大量的破坏性实验,收集到很多数据建立一套模型,但真正应用到现场的时候,发现现场由于管路连接或是地基不稳等问题,某些故障状态是异常的,影响算法。这时候我们设计了一套自动学习的架构,现场应用时,先收集一段时间数据,一般 5 到 7 天,数据重新返回到云端,再对原来的模型进行调优。新生成的模型重新部署到原来的平台上,包含边缘端、节点上的边缘计算模型,以及云端与之匹配的详细分析的模型。每一台设备都拥有一套独立的边缘算法和云端算法,需要在云上对每一台设备都部署一套独立的环境,同时管理上千上万个边缘节点,每一个节点上也要有自己独立的边缘计算模型的管理。云架构,特别是容器化,能够更灵活调度资源

这套系统在现场有不同场景的应用。

  • 第一种,传统设备监测系统不太好用的情况,比如高频工况变化。在某些行业里,设备的运行状态是频繁发生变化的,比如根据上游液体传输量,实时进行动态调整,再比如地铁排污水,根据地铁隧道里污水的积累量,一旦到量随时会启动,几分钟之内完成工作就停止。如果不能达到高频率的实时监测,这些状态是无法跟踪的。

  • 第二种是对于突发工况的响应。比如原油传输管道一旦故障暂停,原来的热油就会冷却,堵塞管道,我们就要把几公里管道全刨出来,发生一次这样的故障,损失会超过 20 个亿。再比如生化池、污水处理的故障没有被及时响应的话,就对环境造成污染。

  • 第三种是短周期间接性故障,这种故障需要非常高频地采集数据信号,才能对设备有比较好的理解,并且提前准备检修计划等。

目前我们将这套系统主要应用在一些重工业行业里,比如油田,包括上游采集、中游传输、下游石化、化工领域,以及钢铁冶金行业等方向,已经成功累计 600 多次对于设备故障的预警分析。

讲一个在石油行业里的典型应用。采油厂一般分布在荒原里,每隔几公里或者十几公里有一个采油站,收集附近抽油机抽上来的石油,再通过这些采油站汇集到集中的输油体系里。依靠人工去做巡检与管理是非常困难的,但通过智能物联网的方式就能大幅度降低设备出现故障的次数,减少人员成本,提高安全性,提高运维效率。

除此之外,我们现在在和设备厂商直接合作,尤其是传统的机械厂商,比如水泵厂、电机厂、风机厂。这些厂商希望能提前对设备进行智能化的部署,和我们一起构建包括智能设备、远程设备监测,出现问题后由设备厂商提前进行主动运维,并通过设备在现场运行的状况分析,辅助内部进行工艺优化、服务优化等。原来制造业可能是通过生产管理或者是 ERP 资产的管理提升企业,现在我们提供一个新的方向,就是通过设备在外运行的监测和售后服务的管理,提高整个企业运行发展管理的体系。

我们希望做的事情是把边缘计算技术和云计算技术结合起来,打造成新一代的智能物联网体系,能够为我国工业体系的整体水平提升,贡献一点我们的力量。



以上就是武通达先生的演讲内容

知识越是与人分享,价值就越是宝贵

作为数字时代创新趋势的引领者

青云也将继续与大家分享 CIC 2021 的精彩演讲

欢迎持续关注!


- FIN -



点击走进青云QingCloud

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接