酷应用

Jeff Dean亲自揭秘谷歌下一代AI架构：通用、稀疏且高效，网友不买帐：毫无新意

百家作者：机器之心 2021-10-30 15:05:32

机器之心报道

机器之心编辑部

对谷歌的下一代 AI 架构，你怎么看？

在这波 AI 浪潮中，人工智能技术经过十几年的爆发式发展，已经在各个领域有着极为广泛的应用，如医疗、科学研究、汽车等。

但是随着技术发展的缓慢，以深度学习为代表的人工智能技术瓶颈开始凸显。

今年 8 月份，谷歌人工智能主管 Jeff Dean 在一场 TED 演讲上曾表示，我们当前的 AI 只是触及了皮毛，他还透露谷歌正在开发一种灵活的多用途人工智能，可以执行数百万个任务。Google 的解决方案称为 Pathways，旨在将不同的 AI 集中到一个强大的、无所不知的算法中。

近日，Jeff Dean 亲自撰文介绍他眼中的下一代 AI 架构 Pathways，这是一种什么样的架构？总结来说：

Pathways 能够训练一个模型来做成千上万件事情；
当前模型只注重一种感官，Pathways 可做到多种；
当前模型密集且效率低下，Pathways 会把模型变得稀疏而高效。

以下是 Jeff Dean 撰写的原文，让我们来细致来看下。

下一代 AI 架构

当我回顾过去二十年的计算机科学研究时，没有什么比人工智能领域的显著进展更令我兴奋。

2001 年，几位坐在离我几英尺远的谷歌同事意识到他们可以使用一种叫做「机器学习」的晦涩技术来帮助纠正拼写错误的搜索查询。我记得当时我很惊讶地看到它适用于从「ayambic pitnamiter」到「unnblevaiabel」的所有内容。今天，人工智能已经成就了许多事情，无论是帮助您拍摄漂亮的照片，还是提供更有用的搜索结果，还是预警数亿人何时何地会发生自然灾害。二十年来的研究进展帮助人工智能从一个有前途的想法提升为数十亿人日常生活中不可或缺的帮助。尽管取得了这些进展，但我仍然对其尚未开发的潜力感到兴奋——人工智能已准备好帮助人类应对我们所面临的一些最严峻的挑战，包括疾病、不平等问题、气候变化等新问题。

但是，应对这些紧迫挑战的深度和复杂性将需要新的、功能更强大的人工智能系统——这些系统将把 AI 领域已经过证明的方法与新兴研究方向结合，从而解决我们今天无法解决的问题。为此，谷歌研究院的团队正在研究下一代人工智能架构的元素，我们认为这将有助于实现此类系统。

我们将这种新的 AI 架构称为 Pathways。

Pathways 是一种新的人工智能思维方式，它解决了现有系统的许多弱点且综合了它们的优势。为了展示我的观点，让我们来看看 AI 当前的一些缺点以及 Pathways 有哪些改进。

当前的 AI 模型只做一件事。Pathways 使我们能够训练一个模型型，做成千上万件事情。

今天的人工智能系统从头开始训练新问题——数学模型的参数是从随机数开始。就像每次你学习一项新技能（例如跳绳），你就忘记了你所学的一切——如何平衡、如何跳跃、如何协调你的手的运动，然后从无到有重新学习。

这或多或少是我们今天训练大多数机器学习模型的方式。我们不是扩展现有模型来学习新任务，而是从无到有训练新模型来做一件事（或者我们有时将通用模型专门用于特定任务）。结果是我们最终为数千个单独的任务开发了数千个模型。以这种方式学习每项新任务不仅需要更长的时间，而且还需要更多的数据，因为我们试图从无到有了解世界的一切以及该任务的细节（完全不同于人们的处理方式）。

相反，我们希望训练一个模型，不仅可以处理许多单独任务的，而且可以利用和结合现有技能来更快、更有效地学习新任务。这样，模型通过对一项任务进行训练（例如，学习航拍图像如何预测景观的高度）来学习的内容吗，也可以帮助它学习另一项任务——例如，预测洪水将如何流经该地形。

我们希望模型具有不同的功能，可以根据需要被调用，或者拼接在一起以执行新的、更复杂的任务——更接近哺乳动物大脑跨任务概括的方式。

今天的模型大多专注于一种感官，Pathways 将启用多种感官。

人们依靠多种感官来感知世界。这与当代人工智能系统消化信息的方式大不相同。今天的大多数模型一次只处理一种形式的信息。如接收文本、图像或语音——但通常不是同时接收。

Pathways 可以实现同时包含视觉、听觉和语言理解的多模态模型。因此，无论模型是在处理「豹」?这个词、有人说「豹」的声音，还是豹奔跑的视频，都会在内部激活相同的响应：豹的概念。这样会得到一个更有洞察力、更不容易出错和偏见的模型。

当然，人工智能模型不必局限于这些熟悉的感觉；Pathways 可以处理更抽象形式的数据，帮助找到人类科学家在气候动力学等复杂系统中难以发现的有用模式。

今天的模型密集且效率低下，Pathways 将使模型变得稀疏而高效。

第三个问题是，今天的大多数模型都是“密集的”，这意味着整个神经网络都会激活以完成一项任务。

这也与人们处理问题的方式非常不同。

我们的大脑有许多不同的部分，专门用于不同的任务，但我们只在特定情况下调用相关部分。你的大脑中有近千亿个神经元，但你依赖其中的一小部分来解释你看到的这句话。

人工智能可以以同样的方式工作。我们可以构建一个 “稀疏” 激活的模型，这意味着只有通过网络的小路径会根据需求被调用。事实上，模型动态地学习网络的哪些部分擅长哪些任务——它学习如何通过模型中最相关的部分来分配任务。

这种架构的一大好处是，它不仅具有更大的学习各种任务的能力，而且速度更快、能源效率更高，因为我们不会为每个任务激活整个网络。

例如，GShard 和 Switch Transformer 是我们创建的两个最大的机器学习模型，但由于两者都使用稀疏激活，因此它们消耗的能量不到类似大小密集模型的 1/ 10——同时与密集模型一样准确。

总结一下：今天的机器学习模型往往在单个任务上过度专项化，而不是擅长多类任务；它们依赖于一种形式的输入，而不是综合多种输入；当前模型往往是暴力美学，而不是灵活专业。

这就是我们建立 Pathways 的原因。Pathways 将使单个 AI 系统能够泛化数千或数百万个任务，理解不同类型的数据，并以非凡的效率来做到这一点——将我们从仅识别模式的单一用途模型时代推进到更多通用智能系统，可以适应新的需求。

最后一点至关重要。我们熟悉当今许多最大的全球挑战，并致力于研究帮助解决这些挑战的技术。但我们也确信未来还有一些我们尚未预料到的重大挑战，许多挑战需要紧急解决方案。因此，我们非常谨慎，始终遵循我们的 AI 原则，正在打造下一代 AI 系统，可以快速适应新需求并解决世界各地出现的新问题，帮助人类创造未来的大部分时间都在我们面前。

网友：没什么新意

对 Jeff Dean 描述的 Pathways 架构大家是否买账呢？当前国内外对此讨论还不多，不过评论不佳啊！