AI,来感受被「分手厨房」支配的恐惧吧!
鱼羊 发自 凹非寺
量子位 报道 | 公众号 QbitAI
盆友,你感受过被分手厨房,啊不,《煮糊了》(Overcooked)支配的恐惧吗?
其实,别说是你,就是AI们碰上需要多人配合,又得切菜,又得上锅,又得送菜,地形还复杂的情况,也一样会分分钟败下阵来。
这不,来自诺丁汉大学、UC伯克利和微软研究院的研究人员,现在就提出:不会玩《煮糊了》的深度强化学习模型,不是好协作AI。
他们还发现,当前多数深度RL模型,竟然都没法儿在《煮糊了》里拿到65%以上的分数。
为此,他们专门写了一篇论文。
用简化版《煮糊了》进行基准测试
想要在现实世界中应用深度强化学习模型,实现AI与人类的协作,目前一个大的挑战在于,这类系统在遇到开发过程中未曾见过的情况、未训练过的行为时,能否保持鲁棒性。
而如何去评估模型的鲁棒性,也是困扰学界的一个难点。
不知道是不是分手厨房带来的胡闹现场启发了他们,研究人员认为,《煮糊了》能够成功在系统能够处理的范围内,测试出潜在的边缘案例。
比如,在游戏中,系统必须应对这样的场景:盘子被不小心落在了柜台上,搭档因为思考或者暂时离开停留在原地……
于是,他们根据《煮糊了》的环境,设计了简化版的单元测试。
主要分为三类:
状态鲁棒性单元测试,这时成功的标准不取决于搭档的状态。如上图(a)中,绿帽子厨师已经拿到了一个盘子,所以无论绿帽子厨师接下来作出怎样的决策,蓝帽子厨师都只要向左拿一个洋葱就是了。
智能体鲁棒性单元测试,这时搭档的状态会影响结果,需要衡量智能体的鲁棒性。如上图(b)中,通道只有一条,绿帽子厨师想要去送汤,蓝帽子厨师就得让开。
智能体&记忆鲁棒性单元测试。如上图(c)中,绿帽子厨师没动静了,出于离开状态,那么蓝帽子厨师应该自己去取盘子送汤。这个状态需要结合历史记录来检测。
研究人员表示,这套基于《煮糊了》的测试套件,能提供无法通过简单考虑验证奖励获得的信息,因此未来可以作为一个评判人工智能协作能力的基准指标。
传送门
论文地址:
https://arxiv.org/abs/2101.05507
代码地址:
https://github.com/HumanCompatibleAI/human_ai_robustness
参考链接:
https://venturebeat.com/2021/01/15/researchers-propose-using-the-game-overcooked-to-benchmark-collaborative-ai-systems/
— 完 —
本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。
加入AI社群,拓展你的AI行业人脉
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见~
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
随时掌握互联网精彩
- 1 习近平引领构建网络空间命运共同体 7910259
- 2 王楚钦谈与张本智和争冠 7974328
- 3 俄飞行员驾驶苏-57经停太原买买买 7837317
- 4 聆听大国外交的铿锵足音 7721005
- 5 两位抗癌网红先后去世 近期曾通话 7605285
- 6 故意冲撞石山舰 17人被抓 7585118
- 7 小伙被两年前经常投喂的流浪狗认出 7422691
- 8 前员工曝光火锅店用僵尸肉 7388164
- 9 男子打赏女主播400万自己啃馒头 7247496
- 10 9条具体措施稳外贸 7169480