人工智能的热点:深度强化学习正成为通往通用AI的关键

百家 作者:DeepTech深科技 2018-04-11 22:24:35

长按识别二维码,收看2018《麻省理工科技评论》区块链商业峰会


深度强化学习( DRL ) 是人工智能研究的一个令人兴奋的领域,这个领域在许多问题上都具有潜在的适用性。有些人认为DRL是通往通用人工智能(AGI)的一条道路,因为它是通过探索和接收环境的反馈来反映人类学习的。


最近,DRL成功击败人类视频游戏玩家,以及双足智能体学习在模拟环境中行走,这些进展都提高了人们对该领域的热情。


与基于已知标签训练模型的监督学习不同,在强化学习中,研究人员通过让智能体与环境交互来训练模型。当智能体的行为产生期望的结果时,例如智能体获得奖励得分或赢得一场比赛,它会得到积极的反馈。简单地说,研究人员加强了智能体的良好行为。


将 DRL 应用于实际问题的关键挑战之一是构造一个激励函数,该函数鼓励期望的行为而不存在副作用。


也许值得注意的是,尽管深度强化学习(“深层”指的是底层模型是一个深层神经网络)仍然是一个相对较新的领域,但强化学习自上世纪70年代或更早就出现了。


图丨Andrej Karpathy


正如计算机视觉领域大牛之一、李飞飞高徒、曾在OpenAI任研究科学家、现任特斯拉AI总监的 Andrej Karpathy 在他2016的博文中所指出的那样,像AlphaGo和Atari Deep Q-Learning这样关键的 DRL 研究都是基于已经存在了一段时间的算法,但是深度学习取代了其他近似函数的方法。当然,他们能够使用深度学习归功于过去20多年中廉价计算能力的爆炸式增长。


DRL带给人们的信心,再加上谷歌在2014年以5亿美元收购DeepMind的行为,使得许多初创公司希望利用这项技术。由于人们对 DRL 越来越感兴趣,我们也看到了新的开源工具包和 DRL 智能体的训练环境。这些框架中的大多数本质上都是专用的仿真工具或接口,以下是几个值得关注的工具包:


  • OpenAI Gym


OpenAI Gym是一个流行的工具包,用于开发和比较强化学习模型。它的模拟器界面支持多种环境,包括经典的Atari游戏,以及机器人和物理模拟器,如MuJoCo和DARPA资助的Gazebo。和其他DRL工具包一样,它提供API来反馈观察结果和奖励给智能体。


  • DeepMind Lab

DeepMind Lab是一个基于Quake III第一人称射击游戏的3D学习环境,为智能体训练提供导航和学习任务。DeepMind最近增加了DMLab-30智能体训练套装,并引入了新的Impala分布式智能体训练体系结构。


  • Psychlab

另一个DeepMind工具包Psychlab今年早些时候开源了,它扩展了DeepMind Lab,以支持认知心理学实验,比如搜索一组特定目标或检测一组物体的变化。然后,研究人员可以比较人类和智能体在这些任务上的表现。


  • House3D

在加州大学伯克利分校和Facebook人工智能研究人员的合作下,House 3D提供了45,000多个模拟室内场景,包括真实的房间和家具布局。介绍House 3D的论文中提到的主要任务是“概念驱动导航”,比如训练一个智能体,在只给出像“餐厅”这样的高级描述符的情况下,导航到房子中的一个房间。


  • Unity Machine Learning Agents

在Danny Lange (VP of AI and ML) 的指导下,游戏引擎开发者Unity公司正在努力将先进的人工智能技术纳入其平台。Unity Machine Learning Agents于2017年9月发布,这是一个开源的Unity 插件,它可以让运行在该平台上的游戏和仿真环境作为训练智能体的环境。


  • Ray 

这里列出的其他工具主要关注DRL培训环境,Ray则更多地介绍了DRL的基础架构。Ray是由Ion Stoica和他在Berkeley RISELab的团队开发的,它是一个在集群和大型多核机器上高效运行Python代码的框架,其目标是为强化学习提供一个低延迟的分布式执行框架。


所有这些工具和平台的出现将使 DRL 更便于开发人员和研究人员使用。但是,他们需要得到所有的能得到的帮助,因为深度强化学习技术很难付诸实践。谷歌工程师 Alex Irpan 最近发表了一篇题为“深度强化学习还不成熟”的文章,对原因进行了解释。Irpan 列举了 DRL 所需的大量数据、大多数 DRL 方法没有利用关于所涉及的系统和环境的先验知识、以及前面提到的提出有效的激励函数方面的困难等问题。


从研究和应用的角度来看,深度强化学习能继续成为人工智能领域的一个热门话题。它在处理复杂、多方面和决策问题方面显示出巨大的潜力,这使得它不仅对工业系统和游戏有用,而且在营销、广告、金融、教育,甚至数据科学本身等领域都很有用。


-End-


编辑:LXQ 校审:黄珊


关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接