李开复领队开源大模型 Yi,40万字上下文窗口破纪录

百家 作者:CSDN 2023-11-06 15:27:16

作者 | 袁滚滚     
出品 | CSDN(ID:CSDNnews)

由李开复博士亲自下场创办的零一万物(01.ai),自 3 月底官宣成立后,于近日发布并开源了两个版本的中英文大模型 Yi-6B 和 Yi-34B。

在线上发布环节,李开复博士重点介绍了 Yi 系列大模型的三处性能亮点:

  • 全球最长 200K 上下文窗口,免费开源

  • 超强 Al Infra 实测训练,成本下降40%

  • 科学训模自研「规模化训练实验平台」

Yi-34B 目前在各个基准测试中,都获得了很好的表现,据零一万物提供的评测结果看来,Yi-34B 和 Yi-6B 均在 MMLU、BBH、C-Eval 取得了不错的成绩。

在参数规模方面,李开复博士强调了本次发布选择了 6B 和 34B 版本,是当前对学术、开发者社区最友好的版本。34B 模型版本具备更优越的知识容量、下游任务的容纳能力和多模态能力,也达到了大模型 「涌现」的门槛。

而比起更大的 50B 至 70B34B 是单卡推理可接受的模型尺寸的上限,训练成本对开发者更友好,经过量化的模型可以在一张消费级显卡(如4090)上进行高效率的推理,对开发者操作服务部署有很大的优势。

发布会中 CSDN 提问如何看待大模型的未来演进方向时,李开复博士认为大模型一定会持续扩大参数规模,来探索模型技术模型效果的极限。同时透露,零一万物在持续进行亿参数规模模型训练,也为此准备好了未来 18 个月里所需要的算力。在多模态方面已经形成了十多人的技术团队,在未来一两个月内,也会有相关工作能够对外公开。

全网首个开源、超长上下文大模型

今日上线

此次开源的 Yi-34B 模型,将发布全球最长、可支持 200K 超长上下文窗口版本,可以处理约 40 万汉字超长文本输入,也就是超过 1000 页 PDF 文档规模的内容。目前 GPT-4-32k 支持约 2.5 万字输入,Claude-100k 目前支持 8 万字,国内大模型 Moonshot、Baichuan 也相继推出长上下文窗口的版本。

在支持超长上下文的大模型中,Yi-34B 也是支持商用开源的第一梯队。

为了解决超长上下文这一重要技术限制,零一万物实施了一系列优化,包括:计算通信重叠、序列并行、通信压缩等。通过这些能力增强,实现了在大规模模型训练中近 100 倍的能力提升。

在训练数据上,李开复直言零一万物团队通过正规渠道购买和爬取的方式,获得了 100T 的中英文数据,并选取了其中 3T 的优质内容进行训练。

但和 LLaMA2 一样,Yi 系列模型在 GSM8k、MBPP 的数学和代码评测表现略逊 GPT 模型。李开复博士解释,这是由于当前零一万物的技术路线倾向于在预训练阶段尽可能保留模型的通用能力,没有加入过多的数学和代码数据。但也将陆续继续推出 Yi 系列大模型的量化版本、对话模型、数学模型、代码模型、多模态模型等一系列模型。

AI Infra 和背后的明星技术骨干

AI Infra 是模型训练背后极其关键的「保障技术」,这是大模型行业至今较少受到关注的硬技术领域。李开复博士认为「做过大模型 Infra 的人,比做算法的人才更稀缺」。

目前 Yi-34B 模型训练成本实测下降 40%,实际训练完成达标时间与预测的时间误差不到一小时,进一步模拟上到千亿规模训练成本可下降多达 50%。截至目前,零一万物 AI Infra 的能力,可以实现故障预测准确率超过 90%,故障提前发现率达到 99.9%,不需要人工参与的故障自愈率超过 95%,保障了模型训练的顺畅进行。

也使得零一万物自成军仅仅数个月,就交出了如此亮眼的成绩单。

零一万物技术副总裁及 AI Alignment 负责人是 Google Bard/Assistant 早期核心成员,主导或参与了从 BERT、LaMDA 到大模型在多轮对话、个人助理、AI Agent 等多个方向的研究和工程落地;

首席架构师曾在 Google Brain 与 Jeff Dean、Samy Bengio 等合作,为 TensorFlow 的核心创始成员之一。

本次参与线上发布的零一万物技术副总裁及 Pretrain 负责人黄文灏,曾先后任职于微软亚洲研究院和智源研究院。负责自然语言理解、实体抽取、对话理解以及人机协同等研究工作,相关成果应用在微软自然语言理解平台 LUIS、Office、Teams、Bot Framework 等产品中,影响用户超过 30 亿。在 AAAI、Transactions on Intelligent Transportation Systems 等人工智能顶级学术会议和高影响因子 SCI 国际期刊发表论文二十余篇。

而支持 Yi 模型训练保障交付的零一万物技术副总裁及 AI Infra 负责人戴宗宏,是前华为云 AI CTO 及技术创新部长、前阿里达摩院 AI Infra 总监,是阿里巴巴搜索引擎平台构建者,后带领团队研发了图像搜索应用拍立淘。

零一万物的 Infra 核心团队曾经参与支持了 4 个千亿参数大模型规模化训练,管理过数万张 GPU 集群,一线的模型技术与集群管理经验,也帮助了 Yi 系列大模型的快速上线。

 AI 2.0 时代是诞生超级应用的新机会

李开复博士认为「AI 2.0 是有史以来最大的科技革命,它带来的改变世界的最大机会一定是平台和技术,正如 PC 时代的微软 Office,移动互联网时代的微信、抖音、美团一样,商业化爆发式增长概率最高的一定是 To C 超级应用。」

他们也将基于 Yi 系列大模型尝试应用创新,并欢迎开发者们携手打造更多 To C 超级应用。

Yi 系列大模型的命名来自「一」的拼音,「Yi」中的「Y」上下颠倒,巧妙形同汉字的 「人」,结合AI 里的 i,代表 Human + AI。零一万物相信 AI 赋能推动人类社会前行,AI 应本着以人为本的精神,为人类创造巨大的价值。
项目地址:

- Hugging Facehttps://huggingface.co/01-ai/Yi-34B;https://huggingface.co/01-ai/Yi-6B

- ModelScope:https://www.modelscope.cn/models/01ai/Yi-34B/summary;https://www.modelscope.cn/models/01ai/Yi-6B/summary

- GitHub:https://github.com/01-ai/Yi

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接