作者:Anirudh Goyal
机器之心编译
参与:路雪
近日,来自 Mila、哈佛大学等机构的研究者提出一种新型循环架构——循环独立机。它具备专门化特性,可以大幅提升模型在大量不同任务上的泛化性能。
模块化结构可以反映环境动态,学习这类结构可实现更好的泛化效果和对微小变化的稳健性。最近,来自 Mila、哈佛大学等机构的研究者提出循环独立机(Recurrent Independent Mechanism,RIM),这一新型循环架构包含多组循环单元,它们可以处理几乎独立的转换动态(transition dynamics),仅通过注意力瓶颈进行稀疏通信。此外,这些循环单元仅在最具相关性的时间步处进行更新。该研究证明,RIM 具备专门化(specialization)特性,并反过来大幅提升了模型在大量不同任务上的泛化性能。
世界的物理进程通常具备模块化结构,而把各个较简单的子系统组合起来有一定的复杂度。机器学习尝试发现并利用物理世界中的规律。尽管这些规律表现为统计学依赖关系(statistical dependency),但它们的底层逻辑是物理世界中的动态进程。这些进程通常是互相独立的,只存在偶尔交互。例如,我们可以将两个球的运动建模为两个独立的机制,尽管它们都经历了地球引力和彼此之间的弱引力。但是,它们可能偶尔才通过碰撞产生强交互。
独立或自主机制的概念在因果推断领域中有很强的影响力,它不仅应用于动态进程,还可用于时间无关数据集。例如,给出某地的海拔高度,则该地年平均温度的条件分布是因果机制的抽象(包括多个复杂的物理进程,如气压等),它独立于该地的海拔分。因此,这可套用到相同气候区中具备不同海拔分布的不同国家。
一个复杂的生成模型,不管它是否为时序模型,都可看作是独立机制或「因果」模块的合成体。在因果推断领域,这通常被认为是对此类模型所确定的变量执行局部干预(localized intervention)的先决条件 (Pearl, 2009)。人们认为,当一个模块出现变化时(如分布漂移),另一个模块可能保持稳健性或保持不变。你可以假设,如果大脑能够解决单个独立同分布任务以外的多个问题,那么学习可被灵活重用、合成和修改的独立机制进而学得模块化结构,无疑是一种经济实惠的方式。
在动态设置中,我们认为整个系统由多个相对独立的子系统构成,受力(force)和干预(intervention)的影响,这些子系统随着时间不断演化。学习智能体无需每次都对所有子系统付出同等的注意力:在制定决策或规划时,只有那些存在强交互的子系统才需要被联合考虑 (Bengio, 2017)。
这样的稀疏交互能够降低学习难度,因为无需一次性考虑那么多交互,这也减少了调整子系统时的不必要干预。按这种方式学得的模型更有可能捕捉到世界的合成生成结构(compositional generative structure)或因果结构,从而在多项任务上实现更好的泛化效果(这些任务中只有一小部分机制发生改变,大多数机制保持不变)。推动该研究的核心问题是:如何使机器学习方法学习独立且稀疏交互的循环机制,进而从模块化结构中获益。
具备稀疏交互的循环独立机
该研究提出的动态系统建模方法将整个模型分割成 k 个小的子系统(或模块),其中每一个都是能够捕捉动态的循环结构。研究者将这些子系统称作循环独立机(RIM),每个 RIM 具备不同的函数,这些函数基于数据自动学得。RIM k 在时间步 t 的状态为 h_(t,k),其中 t = 1, . . . , T。每个 RIM 具备参数 θ_k,所有时间步共享这些参数。

该模型的每一步包含四个阶段(左图展示了两步)。第一阶段,RIM 生成一个 query,从当前输入中读取数据。第二阶段,使用基于注意力的竞赛机制(competition mechanism)根据编码视觉输入选择要激活的 RIM(右图),其中蓝色 RIM 为激活状态,白色 RIM 反之。第三阶段,激活 RIM 按照默认转换动态运行,而非激活 RIM 保持不变。第四阶段,RIM 之间使用注意力进行稀疏通信。
总体来看,研究者想让每个 RIM 默认处理自己独立的动态,与其他相关 RIM 和编码输入选中元素进行偶尔交互。参数总量可以很小,因为 RIM 可以专用于简单的子问题。这种专门化和模块化特性不仅具备计算和统计优势,还可以阻止单个 RIM 主导及建模复杂的合成机制。研究者期望,相比于训练一个大型同质神经网络,RIM 能够带来更稳健的系统。此外,模块化还说明,RIM 应该保持其独立功能,即使其他 RIM 发生改变。
实验目标是,证明 RIM 能够改善模型在不同环境和/或模块化任务中的泛化效果。该研究不关注该方法是否超出高度优化的基线模型,而是想展示该方法面对大量不同任务时的通用性,且这些任务的环境是不断变化的。研究者按照以下顺序展示实验结果:基于时序模式、对象和二者解决泛化问题。
举一个 out-of-distribution 泛化的例子,研究者发现,使用 RIM 可以将休眠期长度从训练阶段的 50 扩展到测试阶段的 200,并保持完美性能(详见表 1),而基线方法(LSTM、NTM 和 RMC)的性能则出现显著下降。

表 1:在复制任务上的性能(左),在 sequential MNIST resolution 任务上的性能(右)。
研究者考虑了一个综合「弹跳球」任务,该任务中多个不同重量和大小的球基于牛顿物理学移动。这个任务非常适合 RIM,因为除了球与球之间偶尔发生碰撞,其他大部分时间内这些球都是独立运动的。在训练阶段,研究者使用 teacher forcing 在每个时间步预测下一帧。
研究者将 LSTM 和 R-NEM 作为基线模型,然后输出 rollouts,结果发现 RIM 能够更好地预测球的未来运动(示例见图 3、图 10 和图 4)。

图 3:预测弹跳球的运动。给定前 15 个真值帧,系统预测接下来 15 个时间步。实验证明 RIM 的性能优于 LSTM(黑色是预测结果,蓝色是真值)。注意 LSTM 预测结果的重影。

图 10:RIM 与 LSTM 基线模型的对比。在这 4 个不同实验中,研究者对比了 RIM 和两个不同的 LSTM 基线模型。在所有案例中,研究者发现 rollout 过程中,RIM 比 LSTM 更准确地捕捉到球的运动轨迹。

图 4:处理新型 Out-of-Distribution 变化。这里,研究者探讨了 RIM 和 LSTM 基线模型的性能对比情况。输入前 15 个真值帧,系统预测接下来 10 个时间步。在 rollout 阶段,RIM 能够更准确地预测球的动态变化,图中蓝色线表示 RIM 的交叉熵,紫色线表示 LSTM 的交叉熵。注意,当测试集对象与训练集不同时,RIM 的 Out-of-Distribution 泛化效果显著优于 LSTM。
接下来,研究者从 BabyAI 中选取了一个拾取物体的强化学习任务,即智能体必须在一堆物体中检索出目标物体,且这堆物体中存在干扰项。下图 5 说明,RIM 在该任务上的性能优于 LSTM。

图 5:模型对新干扰项的稳健性。左:在拾取目标物体的任务中,RIM 的性能优于 LSTM。右:当这堆物体中又加入新的干扰项时,二者的性能对比情况:RIM 优于 LSTM。✄------------------------------------------------加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com投稿或寻求报道:content@jiqizhixin.com广告 & 商务合作:bd@jiqizhixin.com
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/