5300亿!巨型语言模型参数每年暴涨10倍,新「摩尔定律」要来了?

新智元报道
【新智元导读】近年来,大型语言模型参数量每年暴增10倍,最近的巨无霸模型MT-NLG,参数更是达到了5300亿!关于模型参数的「新摩尔定律」已呼之欲出。不过,这可不一定是好事。

大脑的深度学习
研究人员估计,人类大脑平均包含860亿个神经元和100万亿个突触。但不是所有的都用于语言。有趣的是,GPT-4预计将有大约100万亿个参数。

这会是一个巧合吗?我们不禁思考,建立与人脑大小差不多的语言模型是否是一个长期可行的方法?
是深度学习,还是「深度钱包」?
在庞大的文本数据集上训练一个5300亿个参数模型,无疑需要庞大的基础设施。

GPU集群:散热、环保都成问题
实际上,在GPU上训练深度学习模型是一项十分费力的事情。



使用预训练模型
绝大多数情况下,并不需要定制模型体系结构。
使用小模型


微调模型
需要收集、存储、清理和注释的数据更少
实验和数据迭代的速度更快
获得产出所需的资源更少
使用云基础设施

优化模型
从编译器到虚拟机,软件工程师长期以来一直使用工具来自动优化硬件代码。

硬件:大量面向加速训练任务(Graphcore、Habana)和推理任务(Google TPU、AWS Inferentia)的专用硬件。
剪枝:删除对预测结果影响很小或没有影响的模型参数。
融合:合并模型层(比如卷积和激活)。
量化:以较小的值存储模型参数(比如使用8位存储,而不是32位存储)
另一个「摩尔定律」要来了吗?

参考链接:
https://huggingface.co/blog/large-language-models
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

随时掌握互联网精彩
赞助链接
排名
热点
搜索指数
- 1 习近平向抗战烈士敬献花篮 7904319
- 2 外交部:中方已向印度提出交涉 7809193
- 3 山东下了424个大明湖 7712570
- 4 多措并举应对高温“烤”验 7618333
- 5 中国旅行团在意大利被洗劫 使馆回应 7521345
- 6 爱泼斯坦去世当晚牢房区域视频公开 7425205
- 7 网警公布6起侮辱英烈案 7333685
- 8 江苏:县级以下禁止开发政务服务APP 7238072
- 9 前世界拳王陪练时晕倒去世 年仅46岁 7136128
- 10 66岁倪萍回应整容传闻:就是老了 7047732