酷应用

ICLR 2018 | Oral论文：zero-shot视觉模仿系统GSP，仅观察演示就学会执行任务

百家作者：机器之心 2018-04-30 05:41:04

选自arxiv

作者：Deepak Pathak

机器之心编译

参与：Nurhachu Null、刘晓坤

ICLR 2018将于今晚正式开始，机器之心带你抢先一睹这篇来自UC Berkeley的Oral论文。目前模仿学习依赖于专家监督来学习模仿什么以及如何模仿。作者寻求可替代的范式，其中智能体只需知道要模仿什么，然后自主学习如何模仿。该方法是 zero-shot 的，因为在训练或者推理任务演示的时候，智能体从未接触专家如何执行任务的信息。

研究者在两个实际环境中测试了该 zero-shot 方法：分别是使用 Baxter 机器人的复杂绳索操作和使用 TurtleBot 机器人的陌生环境室内导航。在 VizDoom 环境模仿的进一步实验中，给出了这样的证据：更好的探索机制可以导致更强大的策略，策略反过来又进一步提升最终的任务性能。

Baxter 机器人操作绳索。

TurtleBot 机器人室内导航。

演示及代码链接：https://pathak22.github.io/zeroshot-imitation/

简介

模仿专家演示是从原始感知观察中学习执行任务的强大机制。从演示中学习（learning from demonstration，LfD）(Argall et al., 2009; Ng & Russell, 2000; Pomerleau, 1989; Schaal, 1999) 目前的主要范式要么需要专家手动移动机器人的机械臂（也就是运动觉训练），要么需要专家远程操纵机器人来执行期望的任务。在训练时，专家通常会为一个任务提供多次演示，这样就会在智能体的视角以观察-行动（observation-action）对的形式生成数据。然后智能体为执行感兴趣的任务而从这些数据中提取出策略。这种严格监督的方法对人类专家而言是难以置信的乏味，必须通过控制机器人来提供演示。此外，对每个需要机器人来执行的新任务而言，专家必须提供一套新的演示。

除了传达如何通过观察-行动对来执行任务，一个更加泛化的形式是让专家通过一段视频或者一个稀疏的图像序列提供对期望世界状态的观察，仅传达需要做什么。这样，智能体需要自己推理如何执行任务（也就是行动）。在心理学中，这被称为基于观察的学习 (Bandura & Walters, 1977)。尽管这是一个相对困难的学习任务，但是它更加有趣，因为专家可以快速容易地演示多个任务。

对于一个没有任何先验知识的智能体而言，除了在最简单的例子中之外，仅通过简单地观看视觉演示来模仿一个任务是极其困难的。所以，本质问题是：为了模仿，智能体必须具备哪些先验知识？有大量的工作寻求通过从观察中手动预定义必须从观察推理的状态来捕捉先验知识 (Breazeal & Scassellati, 2002; Dillmann, 2004; Ikeuchi & Suehiro, 1994; Kuniyoshi et al., 1989; 1994; Yang et al., 2015)。然后智能体通过这些状态来推理如何执行任务（也就是规划模仿）。不幸的是，计算机视觉系统通常无法准确地估计状态变量，而且对于下行规划系统而言对这种误差的鲁棒性被证明是很重要的。

图 1：目标制约的技能策略（GSP）以当前和目标观察为输入，输出能够实现目标的行动序列。我们比较了以下几个 GSP 模型的性能：（a）简单的逆模型；（b）具有之前动作历史的多步 GSP；（c）具有之前动作历史和前向模型作为正则项的多步 GSP；（d）本文提出的具有前向一致性损失的多步 GSP。

在本论文中，研究者沿着 (Agrawal et al., 2016; Levine et al., 2016; Pinto & Gupta, 2016) 的方向来寻求一个可替代的范式，智能体在没有任何专家监督的情况下将这些探索数据提取为目标指引的技能。这些技能可以被用来模仿由专家提供的视觉演示 (Nair et al., 2017)。这里所说的技能指的是能够预测出相关动作序列的功能，这个动作序列能够将智能体由当前的观察状态带到目标状态。这个功能被称为 GSP（目标制约的技能策略）。GSP 通过自监督的方式习得，与 (Agrawal et al., 2016; Andrychowicz et al., 2017) 类似，通过将智能体在探索环境时遇到的状态重新标记为目标，以及将智能体执行的动作重新标记为预测目标来完成。在推理过程中，在给定一次演示中的目标观察时，GSP 可以从目前的观察中反过来推理如何达到这些目标，因此就可以逐步模仿。

学习 GSP 时的一个关键挑战是：通常，从一个状态到达另一个状态存在多种可能的方式，状态之间的轨迹分布式多模态的。研究者用原创的基于直觉的前向一致性损失解决了这个问题，这个直觉就是：对绝大多数任务而言，达到目标要比如何达到目标更重要。为了让它运转起来，首先需要学习一个能够在给定一个行动（action）和当前观察（observation）时可以预测下一个状态的前向模型。研究者使用用于 GSP 选择的动作的前向模型的输出和真实的下一个状态之间的差别来训练 GSP。这个损失在不需要准确匹配动作本身时就可以让 GSP 预测的动作和真实的下一个动作保持一致，因此会保证预测得到的与真实动作不同的动作—但是会导致同样的下一个状态—不会在不经意间受到惩罚。为了说明达到不同目标所需的不同的步骤数目，研究者使用目标识别器来联合优化 GSP，目标识别器可以判定当前的目标是否已经被满足了。图 1 是对 GSP 结构的简单描述。

这个方法称为是 zero-shot 的，因为智能体从不需要获取专家的动作，无论是在训练 GSP 的过程还是推理阶段的任务演示过程。相反，绝大多数关于 one-shot 模仿学习的最近工作都需要关于动作的完全知识，以及在训练过程中对专家演示的充分了解 (Duan et al., 2017; Finn et al., 2017)。总之，该方法具有以下特点：（1）在学习过程中不需要任何外在激励或者专家监督，（2）仅仅在推理阶段需要演示，（3）仅仅将演示限制在视觉观察上，而不是所有的状态动作。这里的智能体是学习模仿，而不是通过模仿来学习。

研究者在真实机器人上测试了该 zero-shot 模仿器，这些机器人使用 Baxter 进行绳索操作或者使用 TurtleBot 来进行室内导航。前向一致损失能够在复杂的打结任务中提升性能，将准确率从 36% 提升至 60%。在室内导航试验中，通过指引一个简单的有轮子的机器人在部分可观察的室内环境中行走，结果表明学习到的 GSP 可以泛化到陌生的环境中。进一步，在 VizDoom 环境中使用导航的实验，表明利用好奇心驱动的探索 (Oudeyer et al., 2007; Pathak et al., 2017; Schmidhuber, 1991) 学到的 GSP 可以比使用随机探索数据学到的 GSP 更准确地遵循演示。总之，实验表明前向一致的 GSP 可以在没有特定环境或者特定任务假设时被用来模仿很多任务。

图 2：使用 Baxter 机器人的绳索操作任务的定性演示。（a）机器人系统设置。（b）打结任务的推理阶段由人类提供的人类演示图像序列（顶行），在模仿已有的演示时机器人达到的状态的观察图像序列（底行）。（c）在将绳子扭成「S」形的任务中，人类演示的图像序列和机器人达到的状态的图像序列，智能体可以成功地模仿这个演示。

图 4：从初始图像（左上）到达目标图像（右图）的过程中 TurtleBot 轨迹的演示。由于初始图像和目标图像没有重叠，所以机器人首先通过原地打转来进行探索。一旦它检测到了当前图像和目标图像之间的重叠，它就会朝着目标图像移动（也就是第 42 步的图像）。需要注意的是，其中没有显式地训练机器人来探索，而且这种探索行为是自监督学习过程中自然发生的。

表 1：导航任务中，在陌生环境中使用单幅图像作为目标时，不同方法的定量测评。每一列代表对应一个不同的初始/目标图像时的不同运行。完全的 GSP 模型在成功运行时达到目标所花的平均时间更长，但是具有更高的成功率。

图 5：在跟随一个给定的图像序列（顶行）的视觉演示时 TurtleBot 的性能。TurtleBot 以这样的方式被放置：演示中的第一张图像跟目前的观察没有重叠。即使如此，机器人还是能够朝着靠近第一张演示图像靠近（如 Robot WayPoint-1 所示），然后遵循给定的演示，直到结束。这也是经典方法的典型失败案例；在 WayPoint-1 和 WayPoint-2 之间没有可能的关键点匹配，甚至初始的观察是远离 WayPoint-1 的。

表 2：在迷宫和环路两个场景中跟随视觉演示时 TurtleBot 的性能的定量测评。这里给出了两次不同演示下各自三次运行到达地标的百分比。结果表明本文的方法要比基准更优。需要注意的是，研究者在环路情景的光照显著不同的情况下进行了额外的三次实验，结果没有模型成功。具体结果在补充材料中可以看到。

表 3：本文提出的 GSP 方法和基线模型在 VizDoom 3D 导航中跟随视觉演示的性能定量测评。对于每个环境类型中超过 50 个种子和 5 条人类路径的演示完成和效率，给出了中位数和 95% 置信区间。

论文：Zero-Shot Visual Imitation（Zero-Shot 视觉模仿）

论文链接：https://pathak22.github.io/zeroshot-imitation/resources/iclr18.pdf

目前模仿学习的主要范式依赖于较强的专家监督来学习模仿什么以及如何模仿，我们寻求一个可替代的范式，其中智能体首先在没有任何专家监督的情况下探索环境，然后以一种新型的前向一致损失将它的经验抽取为目标制约的技能策略（GSP）。在我们的框架中，专家的作用仅仅是在推理过程中传达目标（即：要模仿什么）。然后，在观察了一个期望任务的演示图像序列之后，学习到的策略被用来模仿专家（即：如何模仿）。我们的方法是 zero-shot 的，因为在训练或者推理任务演示的时候，智能体从未接触过专家的行动。我们在两个实际环境中测试了我们的 zero-shot 方法：分别是使用 Baxter 机器人的复杂绳索操作和使用 TurtleBot 机器人的陌生环境室内导航。在 VizDoom 环境模仿的进一步实验中，我们给出了这样的证据：更好的探索机制可以导致更强大的策略，策略反过来又进一步提升最终的任务性能。