酷应用

学界 | 斯坦福提出神经任务编程NTP：让机器人从层级任务中学习

百家作者：机器之心 2017-10-09 04:52:50

选自arXiv

机器之心编译

参与：朱乾树、蒋思源

斯坦福视觉与学习实验室与加州大学提出神经任务编程（NTP），它可以将指定任务作为输入，并递归地将该任务分解成更精细的具体子任务而进行学习。

论文地址：https://arxiv.org/abs/1710.01813

摘要：在本篇论文中，我们提出一个新的称为神经任务编程（Neural Task Programming/NTP）的机器人学习框架，它支持从演示和神经网络程序归纳中进行 few-shot 学习。NTP 以指定任务（例如，任务的视频演示）作为输入，并将这一任务递归地分解成更精细的具体子任务。这些特定子任务被馈送到分级神经网络程序（hierarchical neural program），其中底层程序是与环境交互的可调用子程序。我们通过三个机器人任务来检验我们的方法。NTP 通过显式分层结构和组合结构的序列任务实现了模型的强泛化能力。实验结果表明，NTP 学习可以通过不断增加的长度，可变拓扑（variable topologies）和多变的目标来应用于未知的任务。

复杂操作任务中的自主性，如目标分类、装配和整理，需要通过机器人与环境之间的长时间交互进行一系列的决策。在复杂的任务中进行规划，适应新任务目标和初始条件绝对是是机器人领域长期面临的挑战 [6,13]。

实验表明 NTP 囊括了三种任务结构的变化：

1）任务长度：因问题大小的增加而改变步数（例如，具有更多的传送对象）;

2）任务拓扑：灵活的排列和子任务的组合达到相同的终极目标（例如，以不同的顺序操纵对象）;

3）任务语义：不同的任务定义和完成条件（例如，将对象放入不同的容器）

图 1：（上）测试时，NTP 实例化一个条件任务策略（一个神经网络程序），通过解释示范任务来执行指定的任务。策略与环境通过机器人 API 相互作用。（下）我们通过模拟和真实的环境中的块堆叠（A，B），目标分类（C，D）和清理桌子（图 8）任务评估 NTP。

成果总结：

1）我们的主要贡献是提出一个新颖的建模框架：NTP，其可以实现层次化任务的元学习（meta-learning）。

2）我们在模拟和实际机器人实验中对单臂操作任务建模以评估 NTP，这些任务包括：块堆叠（Block Stacking），目标分类（Object Sorting）和清理桌子（Table Clean-up）。

3）实验表明，NTP 使知识传播和基于泛化的一次性演示适用于长度增加、拓扑和语义改变的新任务，而不受限于初始配置。

4）我们还表明 NTP 可以通过视觉输入（图像和视频）进行端到端的训练。

图 2：神经任务编程（NTP）给定一个输入程序，一个指定任务，结合当前环境评测，NTP 模型预测子程序是否继续运行，以特定任务的顺序子程序作为输入，还是应该停止当前程序。

图 3：块堆叠任务中 NTP 的样本执行轨迹图。任务是按指定要求堆叠字母块（block_D 堆在 block_E 之上，block_B 堆在 block_D 之上，等等）。顶层程序 block_stacking 作为输入参与整个演示（红色窗口），并预测下一个运行的子程序是 pick_and_place，它应该是将橙色窗口标记为特定输入作为指定任务的一部分。底层 API 调用机器人移动并关闭/打开手指。当程序结束符（EOP）为 True，当前程序停止并返回其调用方程序。