酷应用

最强AlphaGo Zero缔造者回答网友问题，揭开奇迹背后的迷雾

百家作者：DeepTech深科技 2017-10-20 05:35:34

（年度订阅用户可加入科技英语学习社区，每周科技英语直播讲堂，详情查看“阅读原文”）

昨天 DeepMind 的新“幽灵”AlphaGo Zero 的热度还未散去，今天，DeepMind 团队就又对这一新进展进行了深度解析。DeepMind 首席研究员、“AlphaGo 之父”David Silver 和 AlphaGo Zero 论文的三位作者之一的 Julian Schrittwieser 在 Reddit 上举行一场 AMA——“Ask Me Anything”的活动，回答了网友们提出的关于最新一代的 AlphaGo Zero 的若干问题，可谓是干货满满。

图丨Julian Schrittwieser（左）和 David Silver（右）

问：有一点在论文之中并没有被提及，那就是为什么 AlphaGo Zero 的训练如此稳定？行业内的人都了解，深度强化学习极其不稳定、而且总是很容易遗忘，系统的自我训练更是如此，那为什么两者叠加在一起并没出现混乱的状况？

David Silver：相比较于策略梯度、Q-learning 之类传统的（无模型）算法，

AlphaGo Zero 采用了一种截然不同的强化深度学习方法，通过使用 AlphaGo search，我们极大地改进了策略和自我训练的结果，然后我们应用简单的、基于梯度的更新来训练下一个策略+价值网络（policy+value network）。而这要比渐进的、基于梯度的策略改进（policy improvement）更加稳定，且不会遗忘先前的成果。

问：之前的 AlphaGo 使用海量的人类棋手对弈数据来进行训练，但 AlphaGo Zero 却完全是自我学习，那么你觉得数据和算法哪个更重要呢？

Julian Schrittwieser：我觉得目前算法仍然比数据更重要，这从 AlphaGo Zero 与之前几个版本的训练效率差距就可以看出，显然 AlphaGo Zero 的算法是最有效率的。不过我认为，未来数据在训练效率上的重要性也会大幅度的提升。

问：为什么 DeepMind 和 Facebook 同时开始围棋人工智能的研究，但却是你们（DeepMind）率先达到了大师级别的水平？获胜的因素是什么？

David Silver：Facebook 更专注于监督学习，而我们更多地关注强化学习，因为我们认为这最终能超越人类的知识。研究也表明，使用监督学习不过只能带来出乎人意料的表现而已，但如果要远超人类水平，强化学习才是关键。

问：你们认为围棋与星际争霸 2 游戏哪个难度更大？面临的最大潜在技术障碍和区别是什么？

Julian Schrittwieser：距离我们宣布开放星际争霸 2 的环境也才刚过去几周而已，所以现在还处于早期阶段。星际争霸 2 游戏中的活动空间确实要远大于围棋，所以更具挑战性。我认为两者最大的区别在于围棋是一种完全信息博弈，而星际争霸因为有战争迷雾，属于不完全信息博弈。

问：AlphaGo Zero 是 AlphaGo 的最终迭代版本吗？还会有下一步的更新吗？

David Silver：我们已经不再主动研究如何让 AlphaGo 变得更加强大，但仍保留了研究试验台，以供 DeepMind 人员验证新的思路和算法。

问：AlphaGo 有无开源的计划？

David Silver：我们在过去已经开源了大量的代码，但推进的并不顺利，而 AlphaGo 项目的代码库更加复杂，处理起来会更加棘手。

此外，一位网友还问到，去读一个硕士或博士学位对于在人工智能领域里取得成功是必要的吗？Julian Schrittwieser 回答道，“并非绝对”，他举了自己只有计算机学士学位的例子。还说 AI 领域发展非常迅速，你能从读论文、做实验中学到很多东西。而进入一家在机器学习领域有行业经验的公司也是另一种取得进步的途径。

-End-