酷应用

AlphaGo Zero，一次成功的炒作而已？

百家作者：AI100 2018-04-12 13:44:32

编译 | 阿司匹林

出品 | AI科技大本营（公众号ID：rgznai100）

【AI 科技大本营按】2016 年 3 月，AlphaGo 击败世界顶尖职业围棋手李世石，在媒体上掀起巨大的波澜。一年多以后，AlphaGo 的升级版 AlphaGo Zero，在不采用任何人类棋谱作为训练数据的情况下，通过自我对弈，仅用 40 天就超越了所有旧版本。一时间，人们将所有最好的溢美之词纷纷送给了 AlphaGo Zero. 然而，AlphaGo Zero 真有那么伟大吗？来自斯坦福大学的计算机科学研究生 Andrey Kurenkov 从辩证的角度发表了自己对 AlphaGo Zero 的评价。以下为全文编译：

▌为什么说 AlphaGo Zero 很伟大？

首先，我们一起回顾一下 AlphaGo Zero 的各种报道：

AlphaGo Zero：Google 的新 AlphaGo 取得的突破将算法带到了人类从未触及的领地

虽然它听起来像某种苏打水，但 AlphaGo Zero 所取得的突破可能和它的前身（AlphaGo）一样重要，因为它可能预示着算法发展出人类所不具备的技能...... AlphaGo 通过研究人类围棋专家的策略，并通过与自己对抗来实现其在围棋游戏中的主导地位，这种技术被称为强化学习。与此同时，AlphaGo Zero 通过强化学习实现了完全自我训练。而且，尽管除了游戏规则之外没有任何战术指导或信息，但新算法仍然以 100:0 的成绩击败了旧版的 AlphaGo。

DeepMind 的围棋 AI 不再需要人类的帮助来战胜人类

该公司最新的 AlphaGo AI 通过反复的自我对弈学习到了超人的技能

“自己创造知识”：Google 推出能够自我学习的 AI

在人工智能的重大突破中，AlphaGo Zero 仅花了三天时间就掌握了古老的中国围棋游戏 ......没有任何人工帮助

Google 的人工智能“AlphaGo Zero”为学习方式按下了重置键

AlphaGo Zero 正在改变我们解决重大问题的方式。

划下重点：AlphaGo Zero （以下简称 AG0）可以说是近期最令人印象深刻的，也最受称赞的 AI 成就。简单地说，AG0 只是一个深度神经网络，它以围棋棋盘的当前状态为输入，并输出围棋棋步。这不仅比最初的 AlphaGo 简单得多，而且它还纯粹通过自我对弈（self-play）来进行训练（让不同的AlphaGo Zero 神经网络相互对抗；最初的 AlphaGo 是通过模仿人类围棋专家来进行“热身”训练的）。

它在“没有人类帮助”的情况下学习，这种说法并不完全正确，因为围棋的规则是由人类手动编码，而不是 AlphaGo 自己学习到的，但它通过自我对弈来学习而不是模仿人类围棋玩家的基本思路是正确的。下面是 DeepMind 自己对为什么 AG0 如此激动人心的解释。

当然，DeepMind 的演示证明 AI 算法可以通过纯粹的自我对弈而实现超人的围棋和国际象棋水平，但这证明了这些技术真的可以解决 AI 里的各种难题吗？

在一定程度上，是的。

围棋的分支因素导致其难度太大，走到这一步已经花费了几十年的时间。这也是科研人员第一次使用相同的深度学习算法来破解国际象棋和围棋游戏，而且还不像当年的 Deep Blue（深蓝）和最初的 AlphaGo 那样是量身定制的（Deep Blue 是历史上第一个击败人类国际象棋冠军的机器）。因此，AG0 无疑是令人兴奋的工作（同时也是一次伟大的公关）。

图注：从 AI 作为一个研究领域的诞生开始，AlphaGo 是游戏 AI 历史中的一个高潮。因此，这无疑是一项伟大的历史成就。

▌为什么说 AlphaGo Zero 并没有那么伟大？

上文已经说了 AG0 的一些积极影响，我来谈下自己的一些观点: AG0 并不能真正证明这些技术对于解决人工智能的难题是有用的。你看，围棋只是在最简单的 AI 问题范畴内很难。也就是说，这个问题的各种属性恰巧让学习任务变得容易：它是确定性的、离散的、静态的、完全可观察的、完全已知的、单一代理的、情景式的、易于模拟的、易于评分的……实际上，围棋游戏唯一具有挑战性的是其巨大的分支因素。

有些人只看到 AlphaGo 的成功，就预测 AGI（通用人工智能）即将到来，这完全是扯淡，因为现实世界比围棋这样的简单游戏复杂的多。即使是在处理一些类似的问题上（比如视频游戏 Dota II，并不包含所有能让学习任务变得轻松的属性），也远远超出了我们目前的掌控范围。

图注：AI 问题的复杂性。请注意，围棋和（大多数）Atari 游戏以及国际象棋属于同一范畴，唯一的区别是分支因素。AG0 的技术适用于像围棋这样的游戏，但正如我所说的那样，大多数 AI 问题都截然不同，因此要困难的多。

除了某种范畴上的简单性之外，我们还需要理解围棋的狭隘性。AG0 是弱 AI 的一个明确例子，它也被称为窄 AI。弱 AI 的特点是只能执行一个“窄任务”，比如玩 19*19 的围棋游戏。尽管 AG0 能够学习 3 种不同的棋盘游戏，令人印象深刻，但每一种游戏其实都是分开学习的。

而且，它只能学习非常窄的游戏类别：基本上只有双人玩家的格子棋盘游戏，没有任何记忆先前位置或移动的必要。

“通用 AI 值得思考，因为它延伸了我们的想象力，让我们思考我们的核心价值观、选择、以及自由意志实际上对专用 AI 有着显著的适用范畴。”
——奥巴马

图注：在《连线》的采访中，时任美国总统奥巴马对 AI 细致入微的理解令人印象深刻。

因此，虽然 AG0 所取得的成就令人印象深刻，但它与 Deep Blue 在本质上是相似的。不论是资金投入，还是耗费时间，两者都算得上是昂贵的系统。然而这两个系统设计的初衷完全是为了玩游戏——除此之外别无它用。尽管 Deep Blue 对 IBM 来说是一次很好的公关，但通常人们并不认为它对更广泛的 AI 研究的进展有很大贡献，因为它针对的是非常具体的国际象棋问题。

就像使用为 AG0 提供支撑的算法一样，人类调整过的启发式算法和纯粹的计算蛮力相结合，肯定可以解决一些具有挑战性的问题——但它们最终没有让我们超越国际象棋的范畴，甚至都攻不下围棋。我们应该扪心自问：AG0 背后的技术能让我们超出围棋的范畴吗？

“游戏（象棋，围棋，DOTA）代表封闭系统，这意味着人类为机器设定目标和规则。没有机器可以将封闭系统中积累的知识自动转移到开放式系统中去。”
——Gary Kasparov

图注：Gary Kasparov，最终输给 Deep Blue 的那个人，点评 Deep Blue 和 AlphaGo 的局限性。

我只能说，或许吧。

AG0 背后的算法（深度学习和自我对弈）本质上比人类定义的启发式算法和暴力计算更普遍。尽管如此，了解并记住 Deep Blue 与 AG0 之间的相似之处至关重要：归根结底，Deep Blue 和AG0 都是狭窄的 AI 程序，这些项目（至少部分）是出于公关的目的。虽然它们可以处理对人类来说很困难的问题，但是这些问题对计算机来说相对简单。

图注：在 Deep Blue 击败国际象棋冠军 Garry Kasparov 的后一天，IBM 的股价飙升至 10 年来的高位，与历史最高位只有一步之遥。

我写这篇文章的目的既不是为了引起争议，也不是为了否认 DeepMind 的杰出贡献，而是为了对抗所有对 AG0 成功的无端炒作，并鼓励更多人对深度学习和自我对弈的局限性进行讨论。我们需要更多的人站出来，告诉大众，告诉 AI 社区这些真相，以免被炒作和公关带入歧途。

图注：AGI 末日论者夸大了像 AG0 这样的成果的意义，而像我这样的人希望戳破这个虚幻的泡沫；与此同时，对于人工智能的伦理问题和潜在的滥用，人们已经有了足够多的担忧。希望我们能很快达到生产力的高峰...

除此之外，我们还应该拷问自己：对于人工智能来说，有没有更好的方法来学习围棋呢？

AlphaGo Zero 这个名字指的是这样一种想法：模型“从零开始”学习围棋，而无需任何进一步的人工输入或解释。但是“从零开始”学习真的是一件好事吗？想象一下，你对围棋一无所知，然后决定开始学习围棋。首先，你肯定会读一些围棋规则，一些高水平的围棋策略，回忆你过去是如何玩类似游戏的，然后得到一些建议…对吗？

事实上，与人类学习相比，AlphaGo Zero 的“从零开始”学习有其局限性，因此算不上真正令人印象深刻。就像 Deep Blue 一样，在任何给定的游戏中，它仍然依赖于观察更大量级的围棋游戏，规划更大量级的场景，这比人类需要的多得多。

图注：AG0 技术的进步。它“仅仅”需要 3 天的不间断计算就能达到世界上最好的人类技能，这无疑令人印象深刻。但也许我们也应该注意到，即使要获得 0 的 ELO 分数，它也需要一整天的时间，以及比人类一生经历的还要多几个数量级的游戏，与此同时，即使是最弱的人也能轻松做到。

▌结语

因此，让我们总结一下：尽管 AlphaGo 和 AG0 的成就是历史性的，但它们在解决人工智能真正的难题方面（更不用说 AGI ）几乎没有任何进展。然而，与任何领域一样，所有的 AI 研究人员都站在他们的前辈的肩上。虽然这些技术可能并不预示着 AGI 的到来，但它们无疑是深度学习革命的一部分。这个领域仍在发展之中，它们所基于的理念无疑将推动未来的进步。同样的，在欣赏这些 AI 领域里了不起的成就的同时，我们也不能忽视它们的局限性。