线上分享 | 训练大模型不堆GPU,这个炼丹神器点满了技能

百家 作者:机器之心 2021-09-09 14:40:38


近年来,炼大模型已经成为了 NLP、深度学习等诸多 AI 领域的发展趋势。各大科技企业铆足了劲,通过增加参数量的方法来提升模型表现,并由此取得显著的成果。

但随着模型复杂度与数据集规模的扩大,计算效率成为不可忽视的问题。深度学习模型的参数量已经成百上千倍地提升,但 GPU 显存大小增长甚微。这就导致大模型的训练往往依赖堆叠大量 GPU 的方式。对于资金缺乏的普通研究者来说,这种做法显然不现实。

那么如何利用有限的计算资源来训练大模型呢?利用技术手段,提升单个 GPU 显存的利用效率,减少 GPU 使用数量,是一味地堆 GPU 这种做法的不错替代方案。

旷视天元(MegEngine)深度学习框架在其 1.4 版本中引入了动态图显存优化(DTR)技术,通过进一步的工程优化,利用额外计算减少显存占用,从而实现了小显存训练大模型的目的。旷视天元工程师测试发现,开启 DTR 优化,在 2080Ti 上,ResNet50、ShuffleNet 等网络的最大 batch size 可以达到原来的 3 倍以上。

9月15日19:00-20:00,机器之心最新一期线上分享邀请到了旷视研究院算法研究员肖少然和旷视 MegEngine 架构师陈振寰,为大家详细解读 DTR 技术加持下的 MegEngine 如何在大模型训练领域大展身手。


分享主题:使用 DTR 和混合精度技术训练更大的模型

分享摘要:随着深度学习的不断发展,大模型逐渐成为提升算法性能的绝佳方法。由于硬件性能的持续提升和多机训练技术的不断成熟,模型尺寸亦迅速增大,但是训练庞大的模型背后需要海量计算资源的支撑。如何在有限的算力资源下训练出大模型呢?本次分享将介绍 MegEngine 原生支持的 DTR 技术以及对 DTR 的多项优化,看看这些优化对训练更大的模型能带来哪些有益的帮助。此外,我们还将介绍 MegEngine 对混合精度训练的支持,凭借 NVIDIA TensorCore 对 FP16 的优化,在降低显存的同时提升计算速度。而通过结合使用 DTR + 混合精度,我们还可以让训练的模型大小得到更显著的增加。最后,我们还会谈谈在不远的将来,MegEngine 能为大模型的训练带来哪些更强有力的黑魔法。

项目地址:https://github.com/MegEngine

嘉宾介绍:
  • 肖少然,旷视研究院算法研究员,负责超大模型的多机模型训练,相关的算法研究和工程优化,以及 MegEngine 的部分开发工作。

  • 陈振寰,旷视 MegEngine 架构师,主要负责量化训练以及混合精度训练的接口设计与开发。


直播间关注机器之心视频号,北京时间9月15日19:00-20:00开播。

交流群:本次直播设有QA环节,欢迎加入本次直播交流群探讨交流。

机器之心 · 机动组

机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动欢迎所有 AI 领域技术从业者加入

点击阅读原文,访问机动组官网,查看往期精彩回顾。

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接