酷应用

AI在DOTA 2顶级赛事上一败涂地，这究竟意味着什么？

百家作者：DeepTech深科技 2018-08-25 04:01:18

随着昨日 OpenAI Five 被一支中国队伍打败以及前天的另一场失败， AI 提前结束了其在本届DOTA 2 国际顶尖赛事 TI 8 的旅程。

回顾这两场比赛，虽然 AI 在比赛的前 20-35 分钟内保持了很好的获胜机会，但 OpenAI Five 最终仍没有把握住机会：第一场比赛 AI 对阵世界排名前 18 的队伍的 paiN Gaming，比赛持续了大约 51 分钟（一般比赛持续 40 分钟）；在第二场比赛中，AI 对阵由中国退役顶尖玩家组成的队伍，其中三人曾在一支明星队伍中比赛过，在经历了一些精彩额来回战斗后，人类 45 分钟后获胜。

OpenAI Five 在比赛中确实展现了自己一定的实力，根据 OpenAI 赛后发布的博客文章，导致失败的主要原因是对战的游戏玩家明显实力比 AI 高出不少量级，如今年5月以来玩家排名的图表所示：

图|各个队伍的实力分布（来源：OpenAI ）

除此之外，缺乏战略规划也导致了 AI 的失败。

“我们并不感到震惊，”OpenAI 成员 Filip Wolski 赛后对媒体表示。“我们以极高的不确定性参加了比赛。我们不知道某些因素，比如在比赛那天我们会对战谁”。

在周三遭遇首次失败之后，开发人员也重新调整了 AI 的奖励系统，试图最大限度地获得胜利的机会。Wolski 向表示：“当机器人赢得比赛时，最大的回报是给予奖励……这个项目让我们经历了很多不眠之夜，我们会休息一下，并考虑是否为 AI 上传新的超参数。我们将继续研究Dota 2，以便更好地使用越来越少的限制来玩游戏。”

总体来说，在保留一定限制的前提下，OpenAI 的系统仍然无法全面理解 DOTA复杂的游戏系统和规则，比如对侦查守卫和诡计之雾的错误使用，站在 Roshan 洞穴发呆，将 Roshan 复活盾交给辅助等等。这些行为和操作无疑浪费了游戏中宝贵的资源和稍纵即逝的战机。

退一步讲，即使 AI 系统对这些物品和机制有人类无法理解的“独特看法”，但是结合局势来看，这些做法似乎不符合 OpenAI 团队所说的“为全局最优设计的算法”，反倒像是 AI 系统在通过不断试错，来找到物品的正确使用方法和机制背后蕴藏的原理。这或许是因为新的 AI 算法还存在 Bug 和训练时间不足。

图：OpenAI 在泉水处疯狂插眼

纵观八月中旬和 TI8 的几场比赛，OpenAI 的系统似乎并没有展现出太多的进步。虽然比赛规则有所调整，但是面对更加默契和高水平的职业队伍时，AI 系统精密计算的技能释放和反应极快的微操可以惊艳观众，打赢遭遇战，但是无法带来胜利。

归根结底，这是因为规则修改后的游戏更加真实，同时顶级职业选手对 Dota 的理解更加成熟，比如抱团、刷野和带线的时机；对战术的执行更为彻底，比如黑皇杖等关键装备出炉后的开雾抓人；针对不同局势的出装也更加灵活，比如关键英雄补出永恒之盘，防止被秒。

这些战略上的部署是目前 AI 系统所缺失的，它还无法针对局势制定和变化战术。本质上讲，如果人类选手的所有操作都可以被 AI视为一种输入值，那么 OpenAI 的强大算法就会处理这些输入值，并产生相应的输出值，即 AI 英雄的操作。显而易见，AI 通常可以完美地执行这些反馈操作，比如利用跳刀和风杖躲斧王跳吼。