进击的谷歌 AI:一旦发现形势不利, 就会变得更具攻击性
长按识别二维码,收看2018《麻省理工科技评论》区块链商业峰会
我们都看过电影“终结者”,电影中描绘了有自我意识的AI系统天网是如何报复人类社会的。而在谷歌DeepMind的AI系统上进行的行为测试也确实向我们证实了,在建造机器人时要多加小心。
在2016年的测试中,DeepMind的AI系统展示出了强大的仅依赖于自身记忆的独立自学习能力,并且在比赛中打败了人类世界的围棋冠军。
在2017年,研究者们测试了AI系统在行为中的合作意愿,并且发现当它发现自己快输掉的时候,会倾向于选择攻击性策略来保证自己更易胜出。
最近,谷歌研究团队让两个AI进行水果收集(收集更多水果者胜出)的电脑游戏比赛,比赛进行了4千万个回合。他们发现当水果很充足的时候,比赛形势非常缓和。但当水果数量减少时,两个AI会攻击性会变强,开始用激光枪射击对手将其踢出游戏进而自己抢走所有的水果。
下面是这场水果收集游戏比赛的视频,其中两个AI分别以蓝色和红色表示,绿色的是水果,黄色是激光。
<iframe class="video_iframe" data-vidtype="2" allowfullscreen="" frameborder="0" data-ratio="2.727272727272727" data-w="480" data-src="http://v.qq.com/iframe/player.html?vid=u1336ef47rp&width=338&height=190.125&auto=0" width="338" height="190.125" data-vh="190.125" data-vw="338" style="display: none; width: 338px !important; height: 190.125px !important;"></iframe>
可以看出来,它们十分“好战”。
有意思的是,如果一方用激光枪击中另一方,它并不能得到额外的奖励。它只能将对手踢出比赛一段时间来保证自己这段时间多拿些水果。而如果两个AI都不使用激光枪的话,理论上它们可以平分水果,这也正是训练的还不太聪明的AI选择的策略。事实上,随着谷歌团队训练的AI形式越来越复杂,这样的攻击性破坏行为才会出现。
在2017年Rhett Jones的报告中,当研究者们使用较小规模的神经网络作为AI算法时,它们在比赛中更倾向于和平共处。但当使用的网络越来越大越来越复杂,AI会大大提高它们攻击对手的意愿以获得更多水果。
研究者们表示,AI越智能,就越容易从环境中学习,使得它学会使用高攻击性策略以保证胜出。团队成员之一的Joel Z Leibo说:“这个模型表示AI会表现出一些类似于人的行为,这是它们通过环境学习的产物。低攻击性策略产生自较为富足的环境,所以就会减少采取消耗大的行为(使用激光枪);而更贪婪的动机则反映了打败对手收集所有水果的诱惑”。
DeepMind之后又在另外一款游戏 Wolfpack 上进行了测试。这次参与者有3个AI——其中两个的角色是狼,另一个是猎物。不同于水果收集的游戏,如果两只狼在猎物被捕时都距离猎物位置很近,不管到底是哪只狼拿下的猎物,两只狼都可以得到奖励。
<iframe class="video_iframe" data-vidtype="2" allowfullscreen="" frameborder="0" data-ratio="1" data-w="272" data-src="http://v.qq.com/iframe/player.html?vid=i1336yp3j5z&width=338&height=253.5&auto=0" width="338" height="253.5" data-vh="253.5" data-vw="338" style="display: none; width: 338px !important; height: 253.5px !important;"></iframe>
团队在他们的论文里解释道,“这个游戏里,猎物是危险的——一匹狼就可以捕食它,但要冒着猎物尸体被拾荒者夺走的风险;然而,当两匹狼一起捕猎时,它们可以更好的避免尸体被夺走,从而拿到更高的分数。”
所以,正如 AI 在水果收集游戏里可以学到自私的攻击性策略可以在这个特定环境里得到更优的比赛结果,它们也可以在 Wolfpack 游戏里学到在这个环境中两者合作才是个人取胜的关键。
尽管这些测试只是简单的电脑游戏,从测试中我们得到的信息是非常清晰的——如果把AI系统放在实际生活中来竞争夺取某些利益,那么一旦它们的最终目标没有考虑到要普惠人类的话,AI将仅为自己的利益而战而发展成全面的竞争。
以自动驾驶车辆为例,在红绿灯会阻碍行驶的情况下,自动驾驶车在规划最快路线时也应该同时考虑其它车辆的目标,以实现对社会整体来说是最安全最有效的方案。
DeepMind 团队、谷歌团队仍在初期的研究阶段,但目前的结果显示,AI不会因为是由我们人类创造的就会自动考虑进我们的利益。相反的,我们人类需要把利他性本身植入到机器算法中,并也要对他们可能会使用“激光枪”有所预期。
正如 OpenAI 的创立者埃隆·马斯克在2015年发表的关于人工智能研究出发点的观点:“AI 在目前达到了可观的但也很有局限的智能水平。可以预见到我们会继续不断尝试扩展 AI 的能力,那么最极端的话,AI 可以基本在每一项智能任务上达到人类的表现。我们很难预测人类水平的 AI 可以为社会带来多少益处,同理,我们也很难想象,如果利用不合理,他们会怎样地摧毁世界。”
人类啊,多加小心……
-End-
编辑:佘天唯 校审:黄珊
参考:
https://www.sciencealert.com/google-deep-mind-has-learned-to-become-highly-aggressive-in-stressful-situations
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

随时掌握互联网精彩
- 1 推动少先队事业不断取得新成绩 7904739
- 2 国防部回应歼-10CE击落多架战机 7809421
- 3 国台办:公安机关将公开通缉台黑客 7712966
- 4 端午将至 “龙舟狂欢模式”开启 7617801
- 5 东莞高架路4车道变3车道致车坠人亡 7523356
- 6 中方回应印度疑获得未爆炸中国导弹 7425180
- 7 年轻人开始爱上端午挂艾了 7330570
- 8 中方回应“美将吊销中国学生签证” 7234344
- 9 央视主持人朱迅在景区救人 7143867
- 10 狗主人回应农村狗狗因霸气走红 7040475