酷应用

比人类队友更靠谱？DeepMind 的 AI 会玩多人游戏雷神之锤 3 了！

百家作者：DeepTech深科技 2018-07-05 11:01:44

AI 正在帮助我们持续地优化游戏体验。目前，AI 能够让 NPC 更真实的运动和打斗，赋予游戏中的半兽人以人格和逼真的外表。

现在 DeepMind 的 AI 能像人类一样，通过战略、战术和团队协作玩画面定制版的雷神之锤 3 了。

该团队选择了夺旗模式（Capture The Flag，CTF）进行训练。在该模式下，每一场游戏地图都会变化。AI 智能体需要学习通用的策略，来适应每一场比赛的新地图。这对人类来说当然很容易。这些智能体还需要团队合作并与敌队竞争，针对敌情调整游戏策略。

研究人员在博客中写道：“我们的 AI 智能体必须要在未知的环境下从头学习如何观察、行动、合作和竞争，这一切都是从每场比赛中的单个强化信号——队伍赢了还是输了学到的。”他们训练了许多像人类一样能在游戏中不断学习的 AI 智能体。每一个智能体都由一个内部奖励信号来驱动。这个信号可以驱使他们实现目标，比如获取旗子。智能体们在快节奏和慢节奏的比赛下互相比赛，并与人类玩家竞赛，来提高他们的记忆能力，让行为始终一致。研究者发现，游戏中 AI 智能体不但比人类更出色，而且也学会了一些人类行为，如跟随队友，或者埋伏在敌人基地等。

图 | 智能体自动学习的三个人类动作

本次研究的亮点在于，只以成绩奖惩信号学习，通过多智能体强化学习，训练出在复杂条件下支持人机、机器之间协作的高适应性智能体。

游戏规则

CTF 夺旗赛的规则很简单，不过游戏状况却很复杂。两队玩家在一个地图里保护己方，抢夺敌方的旗子。为了获得战术优势，他们可以碰触敌人，让他们跳回出生点。在五分钟比赛后，夺旗次数最多的队伍获胜。

本次研究使用的游戏是雷神之锤 III 竞技场。它是许多第一人称视角多人游戏的鼻祖，由于其沉浸式游戏体验和对战略、战术、手眼协调和团队协作的挑战，目前这是最流行的一类游戏，吸引了数以百万计的玩家。

游戏中智能体需要像人类一样学习和行动，通过团队协作共同抗击敌队的智能体、其他类 AI 机器人或人类。

从智能体的视角，夺旗赛不但需要玩家在与队友协作的同时抗击敌人，而且还要能够适应各种不同的游戏状况。

训练方式

在训练中，每一场比赛地图都会不同。因此，智能体不得不学习一种通用的策略，而不是记住特定的地图或技巧。此外，为了模仿真实游戏情况，智能体探索地图的方式与人类类似：先观察一系列图片像素，然后通过游戏控制器实现动作。

图 | CTF 夺旗赛在不断新生成的环境中进行，所以智能体必须能够适应未知的地图

AI 智能体必须要在未知的环境下从头学习如何观察、行动、合作和竞争，这一切都是从每场比赛中的单个强化信号——队伍赢了还是输了习得的。这是个有挑战的学习问题，最终结果基于三个强化学习的通用原则：

训练一群相互游戏的智能体，来保证队友和敌人的多样性。

每个智能体通过自己内部的奖励信号进行学习。这些信号能帮助智能体制定自己的目标，比如去夺旗。一个两级的优化过程直接优化智能体获胜的内部奖励，并使用强化学习来鼓励智能体学习策略。

智能体们在快速和慢速两个时间节奏下被训练，这样能够增强其记忆，使得其行为前后一致。

图 | For The Win 智能体架构示意图。智能体结合了慢速和快速的循环神经网络，包括共享记忆，转换分数为内部奖励。

最终形成智能体被叫做 "For The Win"(FTW) ，在夺旗赛中有高水平表现。重要的是，习得的智能体策略能够适应不同地图尺寸、队友种类和队友数量。

团队选定四十个人类玩家进行了一场人机锦标赛。比赛中人类和智能体会被随机混合组队，作为队友和敌人。

训练结果

论文结果表明，FTW 智能体的表现比基线方法（Self-play + RS ）更好，并且超过了人类玩家的胜率。事实上，对参与者的调查显示，智能体的协作能力比人类玩家更好。

图 | 智能体在训练中的表现。FTW 智能体的埃洛等级分（与胜率正相关）比人类玩家和基线方法都高。

理解智能体

除了结果评估，理解这些智能体的行为和内部游戏表示复杂度也同样重要。

图 | 智能体对游戏世界的表示。相似游戏情形被智能体用相似的方式表示。训练的智能体甚至可以直接使用一些人工神经元编码特定情形。

为了理解智能体，DeepMind 将智能体的神经网络画在平面上，观察其激活模式。上图中的点表示一种游戏情形，周围邻近的点表示它们具有类似的激活模式。这些点的颜色是根据高级别夺旗赛的比赛状态标注的，状态包括：智能体所在房间、双方旗子的状态、队友和敌人的情况。相同颜色的一簇点表示智能体处在相似的高级游戏状态中。

从来没有人告诉这些智能体游戏规则，但智能体却能学习出游戏的基本概念，并发展出对夺旗赛的直观解释。观察发现，特定的神经元将比赛中的重要状态直接编码，比如当旗子被夺走，或者当队友拿到旗子时。论文中还对智能体的记忆使用和视觉注意力进行了进一步分析。

除了那些丰富的表征，那么智能体的实际表现如何呢？首先，智能体的反应速度非常快，且有精确的命中，这可以解释他们出色发挥的原因。然而，人工降低这个准确率和反应时间，他们的表现依旧不俗。所以这些都只是它们成功的因素之一而已。

图 | 在人工降低了智能体的命中率和反应时间之后的影响。即使调整为与人类相近的命中率和反应时间，智能体的表现依旧优于人类玩家。

通过无监督学习，DeepMind 建立了一个智能体和人类的原型行为，发现智能体能够学习出人类行为，比如跟随队友和在敌营埋伏。

跟随队友等行为起初在通过强化学习和群体演化的训练中出现。但当智能体学习以更互补的方式“创新”合作时，这些行为就变少了。

总结

近期科学家们在复杂游戏如星际争霸 II 和 Dota 2 上做了非常棒的工作，而这篇论文则聚焦于夺旗游戏，但其研究贡献是通用的，DeepMind 也期待该方法用在不同的复杂环境中。未来，DeepMind 还希望进一步提升当前的强化学习和基于群体的训练方法。该研究强调了多智能体训练促进人工智能发展的潜力：利用多智能体训练提供的力量，并推动更高适应性的强大智能体和人类团队合作。

-End-

校审：戴青

参考：

https://deepmind.com/blog/capture-the-flag/

https://www.engadget.com/2018/07/03/deepmind-ai-quake-iii-arena-human/