大模型「进厂」有多难?这个源自中国的AI框架整整用了2年

新智元报道

新智元报道
编辑:好困 David
【新智元导读】AI热了这么多年,但框架还是「二人转」,国产框架真的一个能打的都没有吗?

这些研究人员能够在蛋白质结构预测上取得如此突破的一个重要因素,就是模型使用的AI框架——昇思MindSpore。
作为一个2020年3月才开源的昇思MindSpore,其热度已经登上了Gitee排行榜第一名,而基于这个国产AI框架打造的开源模型也超过了300个。
AI框架是什么?
想要搞清楚昇思MindSpore为什么这么受欢迎,首先需要了解「什么是AI框架」。
众所周知,人工智能的三大支柱分别是数据、算法、算力。
而AI框架正是算法模型在设计、训练和验证上的一套标准接口、特性库和工具包。
在开发过程中,AI框架负责给开发者提供构建神经网络模型的数学操作,把复杂的数学表达转换成计算机可识别的计算图,并自动对神经网络进行训练。
最后得到的模型,可以用于解决机器学习中分类、回归的问题,实现目标分类、语音识别等应用场景。

除了完成AI算法的工程实现外,AI框架还能极大提高人工智能学习效率、强化AI算法模型能力,并起到承上启下的作用。
向下,可以调用底层硬件计算资源,能够屏蔽底层差异并提供良好的执行性能;向上,可以支撑AI应用算法模型搭建,提供算法工程化实现的标准环境。
讲了这么多理论,其实用一个例子就能很好地理解了。
我们熟知的TensorFlow和PyTorch,就是最出名,也是现阶段用得最多的AI框架。它们相继在2015年和2016年开源。
1年之内,连发4个大模型
1年之内,连发4个大模型
相比起来,在2020年3月才开源的昇思MindSpore,可以说是相当晚了。
不过,「后发优势」也让昇思MindSpore得到了原生支持大模型的能力。
在设计上,昇思MindSpore采用了函数式可微分编程架构,支持全场景协同,并提供Python编程范式,让AI编程更加简单。此外,昇思MindSpore还统一了动态图和静态图的编码方式、单机和分布式训练的编码方式。

相比起来,PyTorch/Megatron框架的并行能力目前只能支持Transformer模型结构 , 而TensorFlow支持的并行策略不够丰富且用的开发者也相对较少。
模型结构的泛化方面,昇思MindSpore为稠密Transformer、稀疏MoE+Transformer、卷积、卷积+Transformer、高维稀疏等提供了全方位的支持。相比业界其他框架支持模型结构可谓最全。

凭借着原生支持大模型的能力,基于昇思MindSpore的大模型现在已发布了4个,并且其中有2个已开始进行产业化推广。
2021年5月,以鹏城实验室为首的技术团队发布了全球首个两千亿稠密参数中文NLP大模型「鹏程.盘古」通过昇思MindSpore的混合自动并行模式,实现了在2048卡算力集群上的大规模分布式训练。
「鹏程.盘古」在16个下游任务中大部分指标优于SOTA模型,其中零样本学习任务11个任务领先,单样本学习任务12个任务领先,小样本学习任务13个任务领先。


从0到国内领先,仅用了2年
从0到国内领先,仅用了2年




顶会论文数量,一度超越TensorFlow
顶会论文数量,一度超越TensorFlow



关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

随时掌握互联网精彩
- 1 聆听习主席重要讲话 军队代表这样说 7985553
- 2 美媒用极为罕见形容《哪吒2》霸榜 7980284
- 3 住建部:住宅层高标准调为不低于3米 7839096
- 4 代表委员答网友问:什么是AI幻觉 7733703
- 5 苦等丈夫80余年的老人去世 7615082
- 6 女子工资4600每天花近百元通勤上班 7565349
- 7 公安机关公布10起涉民生等谣言案件 7455455
- 8 张惠妹被调侃胖成石矶娘娘 7318017
- 9 《难哄》28集杀疯了 7211928
- 10 “好房子”长这样 7180391