首次!AI 组队在Dota 2五对五团战中战胜人类,协作型人工智能的里程碑式突破!

百家 作者:DeepTech深科技 2018-06-25 18:16:58


《星际争霸》这类即时战略类游戏显然已经不能满足AI的“求胜欲”了!这次,5种不同的 AI 算法像人类一样“组队”,在 Dota 2游戏中完虐人类玩家!


今天,由马斯克和 Sam Altman 创立的著名人工智能非营利组织  OpenAI 宣布这一重大里程碑:他们开发的 AI 已经能够组队在 5V5 对战中战胜 Dota 2 顶尖业余玩家,平均天梯分数超过4200分。


虽然这次与 AI 对战的是来自 OpenAI 的员工,并非顶尖职业玩家,而且 AI 也只会使用游戏所提供的 115 位可选英雄中的5位,并且人类玩家不能使用真假眼,魔瓶等道具,但我们有理由相信这仅仅是个开始。此次开发的 AI 也将在今年秋季参加顶级 Dota 2 赛事 The International,到时候会与 5 名专业选手组成的战队一决高下。



图丨OpenAI 的 AI 团队击败了OpenAI的员工团队,但前方还有更大的挑战


 OpenAI 开发了一套名为 OpenAI Five的算法,如果独立的看这种算法,其实并没有什么特别的,就是一种学会了如何玩 Dota 2 的神经网络,而且此前也有AI算法在一对一 Dota 2 比赛中胜过人类玩家的先例。但 AI 的这次胜利却有着完全不同的意义,因为5套算法间已经学会了如何与“队友”协作。 

OpenAI 创建人工智能时使用的是机器学习的一种,强化学习。这种技术看似简单,但是能让 AI 习得非常复杂的行为。让 AI 学习的过程是,把 AI 放到虚拟环境中,并通过自我尝试学会实现目标。具体来说,程序员设定奖励机制(比方说在AI 杀掉敌人后奖励机器系统),然后让 AI 一遍遍进行游戏。


这些 Dota 机器人的自我训练量惊人,每一天机器人用相当于180年游戏的量进行训练,连续训练时间达几个月。研究人员说:“它开始时在地图上乱走,但是,几个小时后,它开始具备基本技能。如果一个人需要花1.2万到2万小时才能成为专业游戏玩家,那AI的速度要快得多,因为每天积累的游戏经验是一个人一生积累经验的100倍。”


图丨在2017年时,在1V1 被 AI 打败的 Dota2 顶尖人类选手 Dendi


与技术战略类游戏不同,Dota 这种 MOBA(多人联机在线竞技游戏)类游戏有着更为复杂的游戏机制,还需要队友间完美的配合才能取得最终的胜利。而这次的 5 位AI“玩家”完美的证明了人工智能也懂得相互配合。


这无疑是 AI 技术的又一里程碑,因为人们认知中的AI通常独立运行的,多AI间的相互配合,除了在游戏中击败人类,我们很容易联想到这种“协作型” AI 技术更多的商业应用场景,比如多种 AI 算法可以在在线交易或广告竞价排名中相互配合拿下订单,或者在生产线上“组队”完成多样化的制造任务。当然,合作型算法将导致AI技术与人类更“亲密无间”的协作。




其实即便是科技高度发展的今天,AI 和机器人技术还是两个相对独立的领域,人类也一直在尝试将 AI 技术与机器人相结合,来颠覆现有的生产及仓储模式,这无疑会将 AI 带入全新的时代。


此前,OpenAI 已经开发出了一种算法,能在一对一的 Dota 2 比赛中战胜人类顶级玩家,基于这套算法,OpenAI 进一步开发出了能评估自身表现与队伍获胜间的微妙关系。OpenAI Five 作为相互独立的5种算法,它们之间并不存在主动交流机制,除非它们处于同一局游戏中,所以大可不必担心出现电影《终结者》中的“天网”。


 “我们从比赛中能感受到,AI算法间的协作意图似乎是一种非常自然的本能表现。” OpenAI 创始人之一的 Greg Brockman 表示。在 Dota 2 的 5V5 团队赛中,他们甚至尝试了用一位人类玩家顶替 5 位“ AI 玩家”中的一个,而这位替补上场的人类玩家的感觉是:“我能体会到AI队友对我的支援!”


 图丨Greg Brockman 


Dota2 是一个复杂的战略游戏,游戏中各自由五名玩家组成的队伍之间开展对战,在广袤的地图上推倒对方的防御塔和遗迹,才能获得最终的胜利。玩家们使用的英雄有各自的强项、弱项、技能和属性。在游戏里,玩家需要获得金钱,购买和升级装备,思考战略,还要和对手厮杀。

 

用 AI 程序来玩电脑游戏逐渐成为衡量 AI 能力的常用手段。围棋是著名的高难度游戏,Alphabet 的子公司 DeepMind 曾因为开发出能学习下围棋的软件而声名大噪。另一个相关的成绩则是 AI 通过与自己对战从零开始直到掌握了下围棋和国际象棋的能力。

 

虽然玩 Dota 2 所需的战略不像国际象棋和围棋那样有更多自由发挥的空间,但是要掌握这款游戏仍然相当困难。对于机器来说更是巨大的挑战,因为机器不能随时能看到对手的举动,而且这款游戏需要团队合作。

 

目前 OpenAI Five 还只能在有限条件下打 Dota 2。 OpenAI Five 不随机从115个可用英雄中选择,而是限定了5个英雄,因为每个英雄都有自己的特点。 他们的选择是:Necrophos、Sniper、Viper、Crystal Maiden、Lich。


一些决策过程是硬编码的,比如在商店买哪些物品,以及选择用游戏积累的经验值提高哪些技能。此外,游戏中一些决策棘手的操作也被禁用,比如隐形和召唤。这些技能可以让玩家拥有观察远方的功能,就像有一个远程相机,几乎是高级游戏玩家必备。


尽管如此,OpenAI Five 继承了计算机的优势,反应时间比人类短,不会错过点击,可以即时和精确地获取数据,如物品清单、英雄的健康状况以及地图上物体之间的距离。而人类玩家必须手动检查或者凭本能判断。


OpenAI Five 通过与自己的不同版本对战来学习游戏战略。随着时间推进,程序习得的战略与人类玩家所使用的战略很类似,比如通过 “打钱” 找到获取金钱的方法,以及采用游戏中特定的战略角色,并学习如何分路,Gank 和支援队友等策略。


人工智能专家表示,这一成就意义重大。匹兹堡卡内基梅隆大学的研究员 Noam Brown 说:“ Dota2 是一个极其复杂的游戏,能打败强大的业余玩家就已经很不容易了,而且, 处理 Dota2 这种大型游戏中的隐藏信息是一个很大的挑战。”


<iframe class="video_iframe" data-vidtype="2" allowfullscreen="" frameborder="0" data-ratio="1.7666666666666666" data-w="848" data-src="http://v.qq.com/iframe/player.html?vid=e1322d07vw2&width=334&height=187.875&auto=0" width="334" height="187.875" data-vh="187.875" data-vw="334" style="display: none; width: 334px !important; height: 187.875px !important;"></iframe>

图丨此前人工智能学习Dota2的画面


Brown 之前研究过一种玩扑克的算法,扑克是另一种非完整信息博弈游戏,玩家需要有高超的技巧。Brown 说,如果 OpenAI 五人组能够一直打败人类,那将是人工智能的一个重大成就。然而,他也指出,只要有足够的时间,人类可能就会找出人工智能团队的游戏风格弱点。


Brown 说,其他游戏也可以进一步推动人工智能。“下一个重大挑战将是涉及到交流的游戏,例如《强权外交》和《卡坦岛》,在这些游戏里,玩家需要平衡合作与竞争才能胜利。”


-End-



关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接