酷应用

新闻
- 看点
- 观点
- 读点
- 热点
科技
- 数码
- 软件
- 应用
- 极客
企服
- 电商
- 运营
- 移动
- 访谈
- 动态
- 招聘
- 访谈
- 百家
安全
- 业界
- 快讯
- 技术
- 校园
- 工具
文娱
- 明星
- 影视
- 音乐
- 网娱
- 韩娱
- 词典
游戏
- 手游
- 页游
- 端游
好货
- 报道
- 值得买
- 健康

DeepMind开源强化学习环境，灵活可配置，计算资源有限的小型实验室也能用

百家作者：量子位 2019-08-20 08:27:06

铜灵发自凹非寺
量子位出品 | 公众号 QbitAI

想搞强化学习，但算力门槛让不少人望而却步。

想想DeepMind训练的通用棋类AI AlphaZero，碾压一票同类选手，但堆砌了实验室里5064个TPU的算力。谷歌财大气粗，但小实验室就无法复制了。

没有那么大算力，也可以进行强化学习。

这一次，“专注强化学习一百年”的DeepMind又出手了，推出了一个小规模的强化学习环境，适合算力有限的实验室。

这个强化学习环境名为Spriteworld的强化学习环境，由二维简单形状组成的环境，可以进行简单移动。

DeepMind表示，别看这个场景简单，但能为多个物体场景中提供尽可能多的灵活性，同时保留尽可能简单的界面。

一经发出，DeepMind推特就收获了400赞，网友大呼：Fascinating（太吸引人了）~

精灵世界

Spriteworld（精灵世界）是一个基于Python的强化学习环境，里面各种不同的形状都是一个精灵，可以在整个界面中自由移动。

这是一个多维度环境，形状的位置、大小、颜色、角度和速度都可以不断变化，自由调节。

这个世界里没有物理引擎，所以默认情况下，里面的“精灵”们会互相重叠，但不会交互或是碰撞。

研究人员演示了环境中可操作的3种任务，比如这个目标寻找任务，智能体需要将目标精灵，也就是绿色正方形方块带到环境中心。

比如聚类任务，智能体需要根据自身的颜色排列成簇。

在排列任务中，智能体必须依据其自身颜色将目标精灵放置到目标位置，其中颜色与位置有一定的关联关系。

DeepMind表示，可以通过动作空间引入各个精灵之间的交互，并且动作空间中的每个时间步可以同步给所有精灵。

举个例子，比如DiscreteEmbodied动作空间实现了一种基本的物理形式，一个智能体可以携带其他智能体。

DeepMind强化学习资源集合

如果你想要研究强化学习，那么DeepMind一定是你不可错过的领路人。

这个“专注强化学习一百年”的研究机构，已经开放了大量的强化学习研究资源。

开源强化学习框架多巴胺（Dopamine），基于基于TensorFlow，代码紧凑，简洁可复现。

博客：
https://ai.googleblog.com/2018/08/introducing-new-framework-for-flexible.html

代码：
https://github.com/google/dopamine/tree/master/docs#downloads

开源强化学习库松露（TRFL），模块化，强调灵活度：如果把造智能体想象成搭积木，许多关键的、常用的木块都在这里集合了。

并且库里面的组件，虽然来源各不相同，但都经过严密测试，因而相对可靠；并且只要一个API，对开发者比较友好。

GitHub地址：
https://github.com/deepmind/trfl/

开源强化学习研究环境Control Suite，设计了一组有着标准化结构、可解释奖励的连续控制任务，还为强化学习Agent提供一组性能测试指标。

这些任务基于MoJoCo物理引擎，所用的语言是Python。DeepMind在GitHub上放出的源代码中，就包含基于MoJoCo的Python强化学习环境，以及为MoJoCo提供Python绑定的软件库。

论文：
https://arxiv.org/pdf/1801.00690.pdf

代码：
https://github.com/deepmind/dm_control

开源分布式强化学习架构IMPALA，让一个Agent学会多种技能。

IMPALA的灵感来自于热门的A3C架构，后者使用多个分布式actor来学习agent的参数。在类似这样的模型中，每个actor都使用策略参数的一个副本，在环境中操作。

代码：
https://github.com/deepmind/lab/tree/master/game_scripts/levels/contributed/dmlab30

开源强化学习训练环境Google Research Football，智能体可以在这个宛若FIFA的世界里自由踢球，学到更多踢球技巧。

用足球进行强化学习训练，对AI来说更有挑战性，不仅要能控球，还得搞懂传球、角球这些概念，知道什么时候会犯规吃红牌黄牌，同时训练出足够机智的策略。

论文：
https://github.com/google-research/football/blob/master/paper.pdf?raw=True

代码：
https://github.com/google-research/football

传送门

Github地址：
https://github.com/deepmind/spriteworld

推特介绍：
https://twitter.com/DeepMindAI/status/1163478904092471296

作者系网易新闻·网易号“各有态度”签约作者

— 完 —

活动推荐 | AI计算领域技术盛会

2019人工智能计算大会将于8月27日-28日在北京举办，旨在围绕人工智能的产业需求研讨AI计算，促进AI技术创新、合作发展与人才培养。

门票原价1099元，量子位用户专享福利，识别下图即可限时免费报名。

量子位?QbitAI · 头条号签约作者

?'?' ? 追踪AI技术和产品新动态

喜欢就点「好看」吧 !

关注公众号：拾黑（shiheibook）了解更多

[广告]赞助链接：

四季很好，只要有你，文娱排行榜：https://www.yaopaiming.com/
让资讯触达的更精准有趣：https://www.0xu.cn/

*文章为作者独立观点，不代表爱尖刀立场

本文由量子位发表，转载此文章须经作者同意，并请附上出处( 爱尖刀 )及本页链接。

原文链接 https://www.ijiandao.com/2b/baijia/309288.html

DeepMind 实验室开源

图库

公众号

关注网络尖刀微信公众号
随时掌握互联网精彩

赞助链接

百度热搜榜

排名热点搜索指数