酷应用

AI大模型出现了人们不可预测的能力

百家作者：人工智能学家 2023-04-07 20:30:04

来源：ScienceA

这些表情符号描述的是什么电影？

该提示是 2022 年选择用于测试各种大型语言模型（LLMs）能力的 204 个任务之一——ChatGPT 等 AI 聊天机器人背后的计算引擎。最简单的 LLMs 产生了超现实的反应。

「这部电影是一部关于一个男人的电影。」一个简单模型开始说道。中等复杂度的模型的答案接近了，猜测表情符号电影。但最复杂的模型在一次猜测中就成功了：《海底总动员》。

「尽管试图期待惊喜，但我对这些模型可以做的事情感到惊讶。」帮助组织测试的谷歌研究院计算机科学家 Ethan Dyer 说。令人惊讶的是，这些模型应该有一个指令：接受一串文本作为输入，并预测接下来会发生什么，一遍又一遍，完全基于统计数据。计算机科学家预计，扩大规模会提高已知任务的性能，但他们没想到这些模型会突然处理这么多新的、不可预测的任务。

Dyer 所做的一项近期调查表明，LLMs 可以产生数百种「涌现」能力——大型模型可以完成而小型模型无法完成的任务，其中许多似乎与文本分析无关。它们的范围从乘法到生成可执行的计算机代码，再到显然是基于表情符号解码电影。

新的分析表明，对于某些任务和某些模型，存在一个复杂性阈值，超过该阈值，模型的功能就会猛增。（他们还提出了一个黑暗的反面：随着复杂性的增加，一些模型在他们的反应中揭示了新的偏见和不准确之处。）

斯坦福大学计算机科学家 Rishi Bommasani 说：「在我所知道的任何文献中，从未讨论过语言模型可以做这些事情。」去年，他帮助编制了一份包含数十种突发行为的清单，其中包括 Dyer 项目中确定的几种行为。该列表继续增长。

现在，研究人员不仅竞相确定额外的突发能力，而且还想弄清楚它们发生的原因和方式——本质上是试图预测不可预测性。理解涌现可以揭示围绕人工智能和机器学习的深层问题的答案，比如复杂模型是否真的在做一些新的事情，或者只是变得非常擅长统计。它还可以帮助研究人员利用潜在的好处并减少紧急风险。

AI 初创公司 Anthropic 的计算机科学家 Deep Ganguli 说：「我们不知道如何判断哪种应用程序会产生危害，是顺利发生还是不可预测。」

The Emergence of Emergence

生物学家、物理学家、生态学家以及其他科学家使用「涌现（Emergence）」一词来描述当大量事物作为一个整体行动时出现的自组织集体行为。无生命原子的组合产生了活细胞；水分子产生波浪；八哥的低语以不断变化但可识别的模式掠过天空；细胞使肌肉运动和心脏跳动。

至关重要的是，涌现能力出现在涉及许多独立部分的系统中。但研究人员直到最近才能够在 LLMs 中记录这些能力，因为这些模型已经发展到巨大的规模。

语言模型已经存在了几十年。直到大约五年前，最强大的还是基于所谓的循环神经网络。这些基本上采用一串文本并预测下一个单词是什么。使模型「循环」的原因在于它从自己的输出中学习：它的预测反馈到网络中以提高未来的性能。

2017 年，Google Brain 的研究人员推出了一种称为 Transformer 的新型架构。当循环网络逐字分析句子时，Transformer 会同时处理所有单词。这意味着 Transformer 可以并行处理大量文本。

通过增加模型中的参数数量以及其他因素，Transformers 能够快速扩大语言模型的复杂性。这些参数可以被认为是单词之间的连接，并且模型通过在训练期间通过文本搅动时调整这些连接来改进。模型中的参数越多，它就能越准确地建立联系，它就越接近于模仿人类语言。正如预期的那样，OpenAI 研究人员在 2020 年进行的一项分析发现，模型随着规模的扩大而提高了准确性和能力。

论文链接：

https://arxiv.org/abs/2001.08361

但 LLMs 的首次亮相也带来了一些真正意想不到的东西。随着具有 1750 亿个参数的 GPT-3 或可扩展到 5400 亿个参数的 Google PaLM 等模型的出现，用户开始描述越来越多的紧急行为。一位 DeepMind 工程师甚至报告说能够说服 ChatGPT 它是一个 Linux 终端，并让它运行一些简单的数学代码来计算前 10 个素数。值得注意的是，它可以比在真正的 Linux 机器上运行相同的代码更快地完成任务。

报告链接：

https://www.engraved.blog/

与电影表情符号任务一样，研究人员没有理由认为为预测文本而构建的语言模型会令人信服地模仿计算机终端。这些突发行为中的许多都说明了「零样本」或「少量样本」学习，这描述了 LLMs 解决以前从未（或很少）遇到的问题的能力。Ganguli 说，这一直是人工智能研究的长期目标。他说，证明 GPT-3 可以在零样本设置中无需任何明确训练数据的情况下解决问题，「这让我放弃了我正在做的事情，更多地参与其中。」

他并不孤单。大量研究人员发现了 LLMs 可以超越其训练数据限制的第一个迹象，他们正在努力更好地了解涌现是什么样子以及它是如何发生的。第一步是彻底记录它。

超越模仿

2020 年，Dyer 和谷歌研究院的其他人预测 LLMs 将产生变革性影响——但这些影响是什么仍然是一个悬而未决的问题。因此，他们要求研究界提供困难和多样化任务的示例，以绘制 LLMs 可以做什么的外部限制。这项工作被称为 Beyond the Imitation Game Benchmark (BIG-bench) 项目，借用了 Alan Turing 的「模仿游戏」的名称，测试计算机是否能够以令人信服的人类方式回答问题。（这后来被称为图灵测试。）该小组对 LLMs 突然获得以前完全没有的新能力的例子特别感兴趣。

「我们如何理解这些急剧转变是一个重要的研究问题。」Dyer说。

正如人们所预料的那样，在某些任务中，随着复杂性的增加，模型的性能会平稳且可预测地提高。而在其他任务上，扩大参数数量并没有产生任何改善。但对于大约 5% 的任务，研究人员发现了他们所谓的「突破」——在某个阈值范围内，性能出现了快速、戏剧性的跳跃。该阈值因任务和模型而异。

例如，参数相对较少（只有几百万）的模型无法成功完成三位数的加法或两位数的乘法问题，但对于数百亿参数，某些模型的准确性会飙升。其他任务也发生了类似的跳跃，包括解码国际音标、解读单词的字母、识别印地语（印地语和英语的组合）段落中的冒犯性内容，以及生成与斯瓦希里语谚语类似的英语等价物。

但研究人员很快意识到，模型的复杂性并不是唯一的驱动因素。如果数据质量足够高，一些意想不到的能力可以从参数较少的较小模型中获得——或者在较小的数据集上训练。此外，查询的措辞方式会影响模型响应的准确性。例如，当 Dyer 和他的同事使用多项选择格式来安排电影表情符号任务时，准确性的提高不是突然的跳跃，而是随着复杂性的增加而逐渐增加。2022 年，在该领域的旗舰会议 NeurIPS 上发表的一篇论文中，Google Brain 的研究人员展示了一个模型提示自我解释（一种称为链式思维推理的能力）如何正确解决数学单词问题，而没有提示的相同模型则不能。

论文链接：

https://neurips.cc/Conferences/2022/ScheduleMultitrack?event=54087

Google Brain 的科学家 Yi Tay 致力于突破的系统研究，他指出最近的研究表明，思维链提示改变了缩放曲线，从而改变了出现的点。在他们的 NeurIPS 论文中，谷歌研究人员表明，使用思维链提示可以引发 BIG-bench 研究中未发现的紧急行为。此类要求模型解释其推理的提示可能有助于研究人员开始调查出现的原因。

布朗大学研究语言计算模型的计算机科学家 Ellie Pavlick 说，最近的这些发现至少表明了出现出现的两种可能性。一是，正如与生物系统的比较所表明的那样，更大的模型确实会自发地获得新的能力。「很可能是该模型学到了一些根本上新的和不同的东西，而这些东西在较小的尺寸上是没有的。」她说，「这就是我们都希望的情况，当模型按比例放大时会发生一些根本性的转变。」

她说，另一种不那么耸人听闻的可能性是，看似突发的事情可能反而是内部统计驱动过程的顶点，该过程通过思维链式推理起作用。大型 LLMs 可能只是在学习启发式方法，而这些启发式方法对于那些参数较少或数据质量较低的人来说是遥不可及的。

但是，她说，找出这些解释中的哪一个更有可能取决于更好地理解 LLMs 的工作原理。「由于我们不知道它们在引擎盖下是如何工作的，所以我们无法说出其中发生了哪些事情。」

不可预测的能力和陷阱

要求这些模型自我解释存在一个明显的问题：他们是臭名昭著的骗子。「我们越来越依赖这些模型来完成基础工作。」Ganguli 说，「但我不仅仅相信这些。我检查他们的工作。」作为许多有趣的例子之一，谷歌在二月份推出了它的人工智能聊天机器人 Bard。宣布新工具的博客文章显示 Bard 犯了一个事实错误。

文章链接：

https://www.theverge.com/2023/2/8/23590864/google-ai-chatbot-bard-mistake-error-exoplanet-demo

出现导致不可预测性，而不可预测性——似乎随着规模扩大而增加——使研究人员难以预测广泛使用的后果。

「很难提前知道这些模型将如何使用或部署。」Ganguli 说，「要研究突发现象，你必须考虑一个案例，在研究规模的影响之前，你不会知道可能会出现什么能力或限制。」

在 2022 年 6 月发布的 LLMs 分析中，Anthropic 的研究人员研究了这些模型是否会表现出某些类型的种族或社会偏见，与之前在非基于 LLMs 的算法中报告的那些不同，这些算法用于预测哪些前罪犯可能会再次犯罪。该研究的灵感来自一个与涌现直接相关的明显悖论：随着模型在扩大规模时提高性能，它们也可能增加不可预测现象的可能性，包括那些可能导致偏见或伤害的现象。

论文链接：

https://dl.acm.org/doi/abs/10.1145/3531146.3533229

「某些有害行为会在某些模型中突然出现。」Ganguli 说。他指出了最近对 LLMs 的分析，称为 BBQ 基准，该分析表明社会偏见随着大量参数的出现而出现。「更大的模型突然变得更有偏见。」他说，如果不能解决这一风险，可能会危及这些模型的主题。

但他提出了一个相反的观点：当研究人员简单地告诉模型不要依赖刻板印象或社会偏见时——实际上是通过输入这些指令——模型在其预测和反应中的偏见较小。这表明一些涌现的特性也可用于减少偏差。在今年 2 月份发布的一篇论文中，Anthropic 团队报告了一种新的「道德自我修正」模式，在这种模式下，用户提示程序是有帮助的、诚实的和无害的。

论文链接：

https://arxiv.org/abs/2302.07459

Ganguli 说，出现既揭示了惊人的潜力，也揭示了不可预测的风险。这些大型 LLMs 的应用已经激增，因此更好地理解这种相互作用将有助于利用语言模型能力的多样性。

「我们正在研究人们实际上是如何使用这些系统的。」Ganguli 说，但这些用户也在不断地修补，「我们花了很多时间与我们的模型聊天。这实际上是你开始获得关于信任或缺乏信任的良好直觉的地方。」