酷应用

线上分享 | 训练大模型不堆GPU，这个炼丹神器点满了技能

百家作者：机器之心 2021-09-09 14:40:38

近年来，炼大模型已经成为了 NLP、深度学习等诸多 AI 领域的发展趋势。各大科技企业铆足了劲，通过增加参数量的方法来提升模型表现，并由此取得显著的成果。

但随着模型复杂度与数据集规模的扩大，计算效率成为不可忽视的问题。深度学习模型的参数量已经成百上千倍地提升，但 GPU 显存大小增长甚微。这就导致大模型的训练往往依赖堆叠大量 GPU 的方式。对于资金缺乏的普通研究者来说，这种做法显然不现实。

那么如何利用有限的计算资源来训练大模型呢？利用技术手段，提升单个 GPU 显存的利用效率，减少 GPU 使用数量，是一味地堆 GPU 这种做法的不错替代方案。

旷视天元（MegEngine）深度学习框架在其 1.4 版本中引入了动态图显存优化（DTR）技术，通过进一步的工程优化，利用额外计算减少显存占用，从而实现了小显存训练大模型的目的。旷视天元工程师测试发现，开启 DTR 优化，在 2080Ti 上，ResNet50、ShuffleNet 等网络的最大 batch size 可以达到原来的 3 倍以上。

9月15日19:00-20:00，机器之心最新一期线上分享邀请到了旷视研究院算法研究员肖少然和旷视 MegEngine 架构师陈振寰，为大家详细解读 DTR 技术加持下的 MegEngine 如何在大模型训练领域大展身手。

分享主题：使用 DTR 和混合精度技术训练更大的模型

分享摘要：随着深度学习的不断发展，大模型逐渐成为提升算法性能的绝佳方法。由于硬件性能的持续提升和多机训练技术的不断成熟，模型尺寸亦迅速增大，但是训练庞大的模型背后需要海量计算资源的支撑。如何在有限的算力资源下训练出大模型呢？本次分享将介绍 MegEngine 原生支持的 DTR 技术以及对 DTR 的多项优化，看看这些优化对训练更大的模型能带来哪些有益的帮助。此外，我们还将介绍 MegEngine 对混合精度训练的支持，凭借 NVIDIA TensorCore 对 FP16 的优化，在降低显存的同时提升计算速度。而通过结合使用 DTR + 混合精度，我们还可以让训练的模型大小得到更显著的增加。最后，我们还会谈谈在不远的将来，MegEngine 能为大模型的训练带来哪些更强有力的黑魔法。

项目地址：https://github.com/MegEngine

嘉宾介绍：