酷应用

Bengio等人提出新型循环架构，大幅提升模型泛化性能

百家作者：机器之心 2019-10-08 04:46:03

选自arXiv

作者：Anirudh Goyal

机器之心编译

参与：路雪

近日，来自 Mila、哈佛大学等机构的研究者提出一种新型循环架构——循环独立机。它具备专门化特性，可以大幅提升模型在大量不同任务上的泛化性能。

模块化结构可以反映环境动态，学习这类结构可实现更好的泛化效果和对微小变化的稳健性。最近，来自 Mila、哈佛大学等机构的研究者提出循环独立机（Recurrent Independent Mechanism，RIM），这一新型循环架构包含多组循环单元，它们可以处理几乎独立的转换动态（transition dynamics），仅通过注意力瓶颈进行稀疏通信。此外，这些循环单元仅在最具相关性的时间步处进行更新。该研究证明，RIM 具备专门化（specialization）特性，并反过来大幅提升了模型在大量不同任务上的泛化性能。

模块化结构

世界的物理进程通常具备模块化结构，而把各个较简单的子系统组合起来有一定的复杂度。机器学习尝试发现并利用物理世界中的规律。尽管这些规律表现为统计学依赖关系（statistical dependency），但它们的底层逻辑是物理世界中的动态进程。这些进程通常是互相独立的，只存在偶尔交互。例如，我们可以将两个球的运动建模为两个独立的机制，尽管它们都经历了地球引力和彼此之间的弱引力。但是，它们可能偶尔才通过碰撞产生强交互。

独立或自主机制的概念在因果推断领域中有很强的影响力，它不仅应用于动态进程，还可用于时间无关数据集。例如，给出某地的海拔高度，则该地年平均温度的条件分布是因果机制的抽象（包括多个复杂的物理进程，如气压等），它独立于该地的海拔分。因此，这可套用到相同气候区中具备不同海拔分布的不同国家。

一个复杂的生成模型，不管它是否为时序模型，都可看作是独立机制或「因果」模块的合成体。在因果推断领域，这通常被认为是对此类模型所确定的变量执行局部干预（localized intervention）的先决条件 (Pearl, 2009)。人们认为，当一个模块出现变化时（如分布漂移），另一个模块可能保持稳健性或保持不变。你可以假设，如果大脑能够解决单个独立同分布任务以外的多个问题，那么学习可被灵活重用、合成和修改的独立机制进而学得模块化结构，无疑是一种经济实惠的方式。

在动态设置中，我们认为整个系统由多个相对独立的子系统构成，受力（force）和干预（intervention）的影响，这些子系统随着时间不断演化。学习智能体无需每次都对所有子系统付出同等的注意力：在制定决策或规划时，只有那些存在强交互的子系统才需要被联合考虑 (Bengio, 2017)。

这样的稀疏交互能够降低学习难度，因为无需一次性考虑那么多交互，这也减少了调整子系统时的不必要干预。按这种方式学得的模型更有可能捕捉到世界的合成生成结构（compositional generative structure）或因果结构，从而在多项任务上实现更好的泛化效果（这些任务中只有一小部分机制发生改变，大多数机制保持不变）。推动该研究的核心问题是：如何使机器学习方法学习独立且稀疏交互的循环机制，进而从模块化结构中获益。

具备稀疏交互的循环独立机

该研究提出的动态系统建模方法将整个模型分割成 k 个小的子系统（或模块），其中每一个都是能够捕捉动态的循环结构。研究者将这些子系统称作循环独立机（RIM），每个 RIM 具备不同的函数，这些函数基于数据自动学得。RIM k 在时间步 t 的状态为 h_(t,k)，其中 t = 1, . . . , T。每个 RIM 具备参数 θ_k，所有时间步共享这些参数。

图 1：循环独立机图示。

该模型的每一步包含四个阶段（左图展示了两步）。第一阶段，RIM 生成一个 query，从当前输入中读取数据。第二阶段，使用基于注意力的竞赛机制（competition mechanism）根据编码视觉输入选择要激活的 RIM（右图），其中蓝色 RIM 为激活状态，白色 RIM 反之。第三阶段，激活 RIM 按照默认转换动态运行，而非激活 RIM 保持不变。第四阶段，RIM 之间使用注意力进行稀疏通信。

总体来看，研究者想让每个 RIM 默认处理自己独立的动态，与其他相关 RIM 和编码输入选中元素进行偶尔交互。参数总量可以很小，因为 RIM 可以专用于简单的子问题。这种专门化和模块化特性不仅具备计算和统计优势，还可以阻止单个 RIM 主导及建模复杂的合成机制。研究者期望，相比于训练一个大型同质神经网络，RIM 能够带来更稳健的系统。此外，模块化还说明，RIM 应该保持其独立功能，即使其他 RIM 发生改变。

实验

实验目标是，证明 RIM 能够改善模型在不同环境和/或模块化任务中的泛化效果。该研究不关注该方法是否超出高度优化的基线模型，而是想展示该方法面对大量不同任务时的通用性，且这些任务的环境是不断变化的。研究者按照以下顺序展示实验结果：基于时序模式、对象和二者解决泛化问题。

举一个 out-of-distribution 泛化的例子，研究者发现，使用 RIM 可以将休眠期长度从训练阶段的 50 扩展到测试阶段的 200，并保持完美性能（详见表 1），而基线方法（LSTM、NTM 和 RMC）的性能则出现显著下降。

表 1：在复制任务上的性能（左），在 sequential MNIST resolution 任务上的性能（右）。

研究者考虑了一个综合「弹跳球」任务，该任务中多个不同重量和大小的球基于牛顿物理学移动。这个任务非常适合 RIM，因为除了球与球之间偶尔发生碰撞，其他大部分时间内这些球都是独立运动的。在训练阶段，研究者使用 teacher forcing 在每个时间步预测下一帧。

研究者将 LSTM 和 R-NEM 作为基线模型，然后输出 rollouts，结果发现 RIM 能够更好地预测球的未来运动（示例见图 3、图 10 和图 4）。

图 3：预测弹跳球的运动。给定前 15 个真值帧，系统预测接下来 15 个时间步。实验证明 RIM 的性能优于 LSTM（黑色是预测结果，蓝色是真值）。注意 LSTM 预测结果的重影。

图 10：RIM 与 LSTM 基线模型的对比。在这 4 个不同实验中，研究者对比了 RIM 和两个不同的 LSTM 基线模型。在所有案例中，研究者发现 rollout 过程中，RIM 比 LSTM 更准确地捕捉到球的运动轨迹。

图 4：处理新型 Out-of-Distribution 变化。这里，研究者探讨了 RIM 和 LSTM 基线模型的性能对比情况。输入前 15 个真值帧，系统预测接下来 10 个时间步。在 rollout 阶段，RIM 能够更准确地预测球的动态变化，图中蓝色线表示 RIM 的交叉熵，紫色线表示 LSTM 的交叉熵。注意，当测试集对象与训练集不同时，RIM 的 Out-of-Distribution 泛化效果显著优于 LSTM。

接下来，研究者从 BabyAI 中选取了一个拾取物体的强化学习任务，即智能体必须在一堆物体中检索出目标物体，且这堆物体中存在干扰项。下图 5 说明，RIM 在该任务上的性能优于 LSTM。