酷应用

人工智能的热点：深度强化学习正成为通往通用AI的关键

百家作者：DeepTech深科技 2018-04-11 22:24:35

长按识别二维码，收看2018《麻省理工科技评论》区块链商业峰会

深度强化学习( DRL ) 是人工智能研究的一个令人兴奋的领域，这个领域在许多问题上都具有潜在的适用性。有些人认为DRL是通往通用人工智能(AGI)的一条道路，因为它是通过探索和接收环境的反馈来反映人类学习的。

最近，DRL成功击败人类视频游戏玩家，以及双足智能体学习在模拟环境中行走，这些进展都提高了人们对该领域的热情。

与基于已知标签训练模型的监督学习不同，在强化学习中，研究人员通过让智能体与环境交互来训练模型。当智能体的行为产生期望的结果时，例如智能体获得奖励得分或赢得一场比赛，它会得到积极的反馈。简单地说，研究人员加强了智能体的良好行为。

将 DRL 应用于实际问题的关键挑战之一是构造一个激励函数，该函数鼓励期望的行为而不存在副作用。

也许值得注意的是，尽管深度强化学习（“深层”指的是底层模型是一个深层神经网络）仍然是一个相对较新的领域，但强化学习自上世纪70年代或更早就出现了。

图丨Andrej Karpathy

正如计算机视觉领域大牛之一、李飞飞高徒、曾在OpenAI任研究科学家、现任特斯拉AI总监的 Andrej Karpathy 在他2016的博文中所指出的那样，像AlphaGo和Atari Deep Q-Learning这样关键的 DRL 研究都是基于已经存在了一段时间的算法，但是深度学习取代了其他近似函数的方法。当然，他们能够使用深度学习归功于过去20多年中廉价计算能力的爆炸式增长。

DRL带给人们的信心，再加上谷歌在2014年以5亿美元收购DeepMind的行为，使得许多初创公司希望利用这项技术。由于人们对 DRL 越来越感兴趣，我们也看到了新的开源工具包和 DRL 智能体的训练环境。这些框架中的大多数本质上都是专用的仿真工具或接口，以下是几个值得关注的工具包：

OpenAI Gym

OpenAI Gym是一个流行的工具包，用于开发和比较强化学习模型。它的模拟器界面支持多种环境，包括经典的Atari游戏，以及机器人和物理模拟器，如MuJoCo和DARPA资助的Gazebo。和其他DRL工具包一样，它提供API来反馈观察结果和奖励给智能体。

DeepMind Lab

DeepMind Lab是一个基于Quake III第一人称射击游戏的3D学习环境，为智能体训练提供导航和学习任务。DeepMind最近增加了DMLab-30智能体训练套装，并引入了新的Impala分布式智能体训练体系结构。

Psychlab

另一个DeepMind工具包Psychlab今年早些时候开源了，它扩展了DeepMind Lab，以支持认知心理学实验，比如搜索一组特定目标或检测一组物体的变化。然后，研究人员可以比较人类和智能体在这些任务上的表现。

House3D

在加州大学伯克利分校和Facebook人工智能研究人员的合作下，House 3D提供了45,000多个模拟室内场景，包括真实的房间和家具布局。介绍House 3D的论文中提到的主要任务是“概念驱动导航”，比如训练一个智能体，在只给出像“餐厅”这样的高级描述符的情况下，导航到房子中的一个房间。

Unity Machine Learning Agents

在Danny Lange (VP of AI and ML) 的指导下，游戏引擎开发者Unity公司正在努力将先进的人工智能技术纳入其平台。Unity Machine Learning Agents于2017年9月发布，这是一个开源的Unity 插件，它可以让运行在该平台上的游戏和仿真环境作为训练智能体的环境。

Ray

这里列出的其他工具主要关注DRL培训环境，Ray则更多地介绍了DRL的基础架构。Ray是由Ion Stoica和他在Berkeley RISELab的团队开发的，它是一个在集群和大型多核机器上高效运行Python代码的框架，其目标是为强化学习提供一个低延迟的分布式执行框架。

所有这些工具和平台的出现将使 DRL 更便于开发人员和研究人员使用。但是，他们需要得到所有的能得到的帮助，因为深度强化学习技术很难付诸实践。谷歌工程师 Alex Irpan 最近发表了一篇题为“深度强化学习还不成熟”的文章，对原因进行了解释。Irpan 列举了 DRL 所需的大量数据、大多数 DRL 方法没有利用关于所涉及的系统和环境的先验知识、以及前面提到的提出有效的激励函数方面的困难等问题。

从研究和应用的角度来看，深度强化学习能继续成为人工智能领域的一个热门话题。它在处理复杂、多方面和决策问题方面显示出巨大的潜力，这使得它不仅对工业系统和游戏有用，而且在营销、广告、金融、教育，甚至数据科学本身等领域都很有用。

-End-

编辑：LXQ 校审：黄珊