四倍提速,字节跳动开源高性能训练推理引擎LightSeq技术揭秘

百家 作者:51CTO技术栈 2022-07-19 20:20:45
作者 | 徐杰承

Transformer模型出自于Google团队2017年发表的论文《Attention is all you need》,该论文中首次提出了使用Attention替换Seq2Seq模型循环结构的概念,给NLP领域带来了极大冲击。且随着近年来研究的不断推进,Transformer相关技术逐渐由自然语言处理流向其他领域。截止目前,Transformer系列模型已经成为了NLP、CV、ASR等领域的主流模型。

因此,如何更快地训练和推理Transformer模型已成为业界的一个重要研究方向。低精度量化技术能够通过降低数据的宽位来加速计算和通信过程,是现阶段模型训练推理加速的一个重要手段。但美中不足的是,量化会造成精度和效果的损失,需要通过量化感知和训练等手段进行降损。针对以上痛点,字节跳动研发升级了LightSeq训练推理加速引擎3.0版本,首次同步实现了精度无损的Transformer模型量化训练和量化推理。

LightSeq通过int8 GEMM实现了真量化训练过程,并非采用业界广泛使用的伪量化方法,能够实现模型训练速度4倍以上的提升。而通过PACT等量化策略,可以将量化训练的损失降到最低。在将量化模型导出为LightSeq支持格式后,可以进一步使用LightSeq量化推理引擎实现快速推理,在T4显卡上提速最高可达70%。

在7月21日的【T·Talk】技术分享活动中,我们特别邀请到了字节跳动算法工程师、LightSeq核心开发者熊鹰老师做客直播间,为广大观众揭秘字节跳动高性能训练推理引擎LightSeq的技术原理与实践细节。无论你是算法行业从业人员,还是热衷于钻研AI技术的开发者,相信你都能从本次分享中收获一些别样的技术经验与创新灵感。

欢迎大家参与7月21日,晚上20:00
T·Talk】第12期技术分享活动
点击视频号卡片,立即预约直播
扫海报下方二维码预约观看


今天因为你的点赞,让我元气满满!

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接