酷应用

AAAI 2018 杰出论文出炉，两位中国留学生共同获奖

百家作者：AI100 2018-01-18 12:12:25

编辑 | 周翔

作为人工智能的顶级会议，AAAI 2018 将于 2.2~2.7 在美国路易斯安那州的新奥尔良举行。然而，大会还没开始，获奖信息就已经在网上传播开来。

获得“杰出论文奖”的是加拿大阿尔伯塔大学 Martin Müller 教授与他的两位学生 Chenjun Xiao, Jincheng Mei 的论文：“Memory-Augmented Monte Carlo Tree Search”，目前该论文还没有公开。

其中，Chenjun Xiao 于 2014 年加入 Martin Müller 教授的研究小组，攻读硕士，2016 年开始攻读博士学位。Jincheng Mei 本科毕业于华南理工大学，硕士毕业于上海交通大学，2015 年进入加拿大阿尔伯塔大学，攻读博士学位。

获得“杰出学生论文奖”的则是来自牛津大学的“Counterfactual Multi−Agent Policy Gradients”，该论文的作者为 Jakob Foerster、Gregory Farquhar、Triantafyllos Afouras、Nantas Nardelli 以及 Shimon Whiteson。

目前，该论文已经公开，以下是 AI 科技大本营对论文概述的简要翻译：

许多现实世界的问题，比如网络分组路由和自动驾驶汽车的协调，通常都被自然地建模为协作多代理系统。我们非常需要一种新的强化学习方法，来有效地学习这种系统的分散策略。为此，我们提出了一种被称为反事实多智能体（COMA，counterfactual multi-agent）策略梯度的方法。COMA 使用中心化的 critic 来估算 Q 函数，以及去中心化的 actors 来优化智能体的策略。另外，为了解决多智能体信用分配的挑战，我们使用了一个反事实的基线，边际化了一个智能体的行为，同时保持其他智能体的行为是固定的。COMA 还使用了 critic 表示法，可以单次正向传递中有效地计算反事实基线。我们使用具有显著部分可观察性的 decentralised variant，在《星际争霸》单位微操作（unit micromanagement）的测试平台上评估了 COMA。结果显示，COMA 显着提高了其他多智能体actor-critic方法的平均表现，而最佳表现的智能体甚至可以与最先进的中心控制器竞争，访问完整的状态信息。

根据 jeffhuang 统计的获奖论文清单，营长发现，自 1996 年以来，虽然已经有一些华人的名字出现其中，但是到目前为止，中国只有浙江大学一所高校上榜。随着越来越多的华人在人工智能领域崭露头角，希望中国的高校能够也能够培养并留住更多的顶尖人才。