酷应用

智能体也“囚徒困境”？DeepMind设置强迫机制要求AI合作

百家作者：大数据文摘 2020-03-15 04:01:04

大数据文摘出品

来源：venturebeat

编译：赵吉克

最近DeepMind提出了一种新的强化学习技术，这种技术以一种全新方式来模拟人类行为。它可能会比之前发布的人工智能决策系统更强大，这对希望通过自动化提高生产率的企业来说可能是个福音。

如何解决多方零和博弈中的合作困境？

DeepMind用强化学习使AI实现利益最大化。这是一种基于对等契约机制的经济竞争模型，该模型允许在多方博弈中结盟。这篇论文其中一位作者表示，这种结盟有单打独斗不具有的特殊优势。

长期以来，零和游戏以其丰富的策略选择空间和清晰的策略评估方式指导着人工智能研究。更重要的是这种竞争广泛存在于生物界、市场经济甚至是AlphaZero中。

DeepMind科学家首先寻求数学定义形成联盟的挑战，关注联盟形成多玩家零和游戏——也就是说，数学表示的情况下，每个参与者的收益或损失的效用是完全平衡的损失或收益的其他参与者的效用。

什么是多方零和博弈？

DeepMind将之定义为每个玩家的收益或损失完全由其余玩家的损失或收益提供。在一个对称多方零和博弈中，每个玩家的行为模式都是一样的，这往往会产生社会困境。（一个极简例子是“囚徒困境”）

零和博弈引入了合作后事情变得很复杂。紧急情况下，团队必须内部协调才能有效地在游戏中竞争。合作形成的过程本身就是一个社会困境——从直觉上看，玩家应该合作来击败其他人，但合作团队内部要求个体为更广泛的利益做出妥协，但这种牺牲未必和他们的自身利益一致。此外，决定加入或离开哪个团队以及团队策略都是重要问题。

DeepMind尝试了一种“礼物游戏”，在游戏中，AI扮演的玩家从一堆标记着自己代表色的数字筹码开始。在每个玩家的回合中，他们必须拿出自己对应颜色的筹码并将其赠送给另一名玩家，或将其弃置。全部玩家都失去自己对应颜色的数字筹码时游戏结束，此时拥有最多颜色筹码的玩家获胜，赢家平分价值为“1”的筹码，其他玩家平分价值为“0”的筹码。

研究发现，玩家往往表现得很自私，他们囤积筹码以至于出现了三方平局。但事实上，如果两名玩家交换筹码，回报会更好。DeepMind将这种过程阐述为：尽管合作能带来更好的结果，但人人都想从欺骗行为中获利，也就是说服对方交换然后食言。

这也就是说，如果有一种机制能维护合作行为存在，那强化学习可以适应这种博弈。这种机制就是合同——在游戏中，每个玩家必须提交一份报价，首先选择合作伙伴，然后为该合作伙伴提出行动建议，最后玩家承诺采取的行动。如果两个玩家提供了相同的契约，那么这些契约就具有了约束力，也就是说环境强制执行了所承诺的操作。

这种强制性机制是合作形成的基础。

这种模型能让我们在更广阔的应用环境中思考契约的作用。一个没有强制实施机制的契约系统如果可以在多方动态博弈中持续运行将最终产生一个有价值的反馈回路，这将使得AI的应用走向社会学和经济学。

相关报道：

https://venturebeat.com/2020/03/05/new-deepmind-technique-encourages-ai-players-to-cooperate-in-zero-sum-games/

实习/全职编辑记者招聘ing

加入我们，亲身体验一家专业科技媒体采写的每个细节，在最有前景的行业，和一群遍布全球最优秀的人一起成长。坐标北京·清华东门，在大数据文摘主页对话页回复“招聘”了解详情。简历请直接发送至zz@bigdatadigest.cn

志愿者介绍

后台回复“志愿者”加入我们