酷应用

业界 | OpenAI举办迁移学习竞赛：评估强化学习算法表现

百家作者：机器之心 2018-04-07 15:59:46

选自OpenAI

作者： CHRISTOPHER HESSE等

机器之心编译

参与：李亚洲、刘晓坤

近日，OpenAI 发布了一个迁移学习竞赛，来评判强化学习算法从先前经验进行泛化的能力。在典型的强化学习研究中，算法的测试与训练环境是一样的，这对于记忆能力更好以及有很多超参数的算法来说更有优势。而 OpenAI 发布的这个竞赛是在先前未见过的视频游戏上测试算法。此外，该竞赛使用的是 OpenAI 将经典游戏融入到 Gym 中做出的新平台 Gym Retro。

竞赛地址：https://contest.openai.com/

Gym Retro 的 GitHub 地址：https://github.com/openai/retro

OpenAI Retro 竞赛给出了在《刺猬索尼克》系列游戏上的多级别训练集，然后在 OpenAI 定义级别的测试集上评估算法。这里有两个机密测试集：一个用于在竞赛进行的时候竞争排行榜，另一个仅在最终排名的时候使用一次。此外，OpenAI 提供了训练集/测试集的分划级别建议，被用于技术报告的所有结果，以及下面的学习曲线。

比赛日期从 4 月 5 日持续到 6 月 5 日。

OpenAI 还发布了 retro-baseline，演示了如何在此竞赛任务上运行数种强化学习算法。

retro-baseline 地址：https://github.com/openai/retro-baselines

在 Retro Contest（测试集）上的基线结果表明，即使使用迁移学习，强化学习算法远远低于人类表现。图中虚线表示人类水平。人类只玩 1 小时的游戏，而算法玩 18 个小时。

在训练阶段，你可以使用自己想要的任何环境或者数据集，但测试阶段你只有 18 个小时（100 万时间步），并在之前从未见过的游戏级别上的环境或者数据集上进行测试。18 小时玩一个游戏也许听起来像是很长的时间，但在此训练预算上，已有的强化学习算法依然要比人类差很多。

索尼克基准

为了更详细地描述这个基准，以及提供一些基线结果，OpenAI 放出了一个技术报告。

技术报告 PDF：https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/retro-contest/gotta_learn_fast_report.pdf

该报告包含关于此基准的详细细节以及从 Rainbow DQN、PPO 到简单随机猜测算法 JERK 的所有结果。JERK 通过随机采样行为序列对索尼克进行优化，且在训练过程中，它更频繁地重复得分最高的行为序列。

通过利用训练级别的经验，可以极大地提升 PPO 在测试级别的表现。在训练级别上预训练，然后在测试级别上精调，网络表现有近一倍的提升，使得它要比最强的基线结果都要好。虽然这不是第一例强化学习中成功的迁移学习案例，但依然令人兴奋，因为它展示了迁移学习有极可靠的高效率。

但强化学习算法要想媲美人类表现，还有很长的路要走。如前面所说，在训练级别上玩 2 个小时，在每个测试级别上玩 1 个小时，人类能够获得比强化学习算法高很多的得分，即使用了迁移学习的强化学习算法也比不过人类。

Gym Retro 测试版

OpenAI 于今天发布 Gym Retro，这是一个将经典视频游戏封装作为强化学习环境的系统。该初步发行版本包含了来自「SEGA Mega Drive and Genesis Classics Steam Bundle」的 30 个 SEGA Genesis 游戏，以及来自「Arcade Learning Environment」（街机学习环境）的 2600 个 Atari 游戏。

Arcade Learning Environment 集合了 2600 个 Atari 游戏，并结合了强化学习的接口，它在过去五年中已成为了强化学习研究的主要驱动。这些 Atari 游戏相比之前的强化学习基准更具多样性和复杂性，并被设计来学习运动技能和人类玩家的问题解决能力。

Gym Retro 测试版利用了比 Atari、SEGA Genesis 更加现代化的控制台，为强化学习研究扩展了数量规模和复杂性。Genesis 上的游戏在某些维度上（物理、物体外观等）有很多层次上的相似性，在另一些维度上（布局、道具等）又有所区别，这使得其可以很好地支持迁移学习。由于利用了更好的硬件（例如，500 倍于 Atari 的 RAM、更宽泛的控制输入种类和更好的图像支持），它们相比 Atari 游戏也有更大的复杂性。

Gym Retro 由「Retro Learning Environment」所启发，但相比之下更加灵活；例如，在 Gym Retro 中，你可以通过 JSON 文件而不是 C++代码指定环境定义，因而能更好地整合新的游戏：

Gym Retro 是 OpenAI 第二次尝试建立强化学习环境的大型数据集。它建立在 2016 年末的 Universe 项目的某些类似思想上，但 OpenAI 并没有从那些实现上得到好的结果，因为 Universe 环境是异步运行的，只能实时运行。由于对游戏状态的检测基于屏幕，这些结果通常是不可靠的。Gym Retro 将 Arcade Learning Environment 的模型扩展为规模大得多的潜在游戏集合。

有时候，算法能找到游戏中的漏洞。这里，利用 PPO 训练的策略发现了它可以滑动穿过墙壁以向右移动并获得更高的分数。这是特定奖励函数导致 AI 智能体的奇怪行为的另一个例子。