2019年深度强化学习十大必读论文!DeepMind、OpenAI等上榜
新智元推荐
【新智元导读】深度强化学习(Deep Reinforcement Learning )是研究的热点之一,在2019年DeepMind OpenAI等发表多篇热门论文。来自SprekelerLab的博士生 Robert Tjarko Lange总结了2019年十大深度强化学习论文,涉及到大型项目、模型RL、多代理RL、学习动力学、组合先验等,值得一看。戳右边链接上 新智元小程序 了解更多!
2019年是深度强化学习(DRL)研究的重要一年,也是我在这一领域读博士的第一年。像每一个博士新手一样,我花了很多时间来阅读论文,实施一些有趣的想法,对重大问题有自己的看法。在这篇博客文章中,我想分享一些我从2019年文献中总结出来的亮点。
为了让这篇文章有更多的结构,我决定把论文分成5个主要类别,并选出一个冠军和亚军。进一步说,这是我2019年的十大DRL论文。
深度RL (如ATARI DQNs、AlphaGo/Zero)在2019年之前的大部分突破性成果,都是在行动空间有限、状态空间完全可见、授信时间尺度适中的领域中取得的。局部可见性、长时间尺度以及巨大的动作空间仍然是空缺的。
另一方面,2019年证明了我们离将函数逼近与基于奖励的目标优化相结合的极限还很远。诸如《雷神之锤3》/《夺旗》、《星际争霸2》、《Dota 2》以及机器人手操作等挑战只是现代DRL能够解决的一部分令人兴奋的新领域。
我试图根据科学贡献而不是现有算法的大规模扩展来选择第一类的获胜者。每个人如果有足够的计算能力-都可以做PPO一样的疯狂的事情。
1、DeepMind AlphaStar (Vinyals et al, 2019)
DeepMind的AlphaStar项目由Oriol Vinyals领导。在阅读《自然》杂志的论文时,我意识到这个项目很大程度上是基于FTW设置来处理Quake III: 将分布式IMPALA的角色-学习者设置与诱导结构化探索的强大先验相结合。
FTW使用基于两个LSTM的时间尺度层次结构的先验,而AlphaStar则使用人工示范。专家演示通过KL目标的监督最小化来预先训练代理的策略,并提供有效的正则化来确保代理的探索行为不会被星际争霸的维度诅咒所淹没。但这绝不是全部。
科学贡献包括一个独特的版本虚构self-play(又名联盟),一个自回归分解与指针的策略策网络,上行策略更新的进化(UPGO - V-trace Off-Policy重要性抽样修正结构化操作空间)以及分散连接(一种特殊形式的嵌入,维护实体的空间相干映射层)。
就我个人而言,我非常喜欢DeepMind,尤其是Oriol Vinyals对星际争霸社区的关心。很多时候,科幻小说让我们误以为电影是一场军备竞赛。但它是人为旨在提高我们的生活质量。
参考链接:
https://deepmind.com/blog/article/AlphaStar-Grandmaster-level-in-StarCraft-II-using-multi-agent-reinforcement-learning
2、OpenAI’s Solving’ of the Rubik’s Cube (OpenAI, 2019)
众所周知,深度学习能够解决需要提取和操作高级特征的任务。另一方面,低水平的灵活性,一种对我们来说很自然的能力,为当前的系统提供了一个主要的挑战。OpenAI灵巧性的贡献中,我最喜欢的是自动领域随机化(ADR):在机器人任务上训练深度RL代理的一个关键挑战是将仿真中所学到的知识转移到物理机器人上。
模拟器只能捕获现实世界中有限的一组机制&精确地模拟摩擦需要计算时间。时间是昂贵的,否则可以用来在环境中产生更多的(但嘈杂的)过渡。提出了一种基于区域随机化的鲁棒策略。与用一组生成环境的超参数在单一环境中训练代理不同,该代理被训练在大量不同的配置上。
ADR旨在设计一个环境复杂性的课程,以最大限度地提高学习进度。ADR根据agent的学习过程自动增加或减少可能的环境配置范围,为agent提供了一个伪自然课程。
令人惊讶的是,这(加上基于ppo - lstm - gae的策略)导致了一种元学习形式,这种形式(到发布时)似乎还没有完全达到它的能力。Twitter上有很多关于“解决”这个词的讨论。该算法没有“完全”学习端到端解决一个立方体的正确的移动序列是什么,然后做所需的灵巧操作。
但说实话,更令人印象深刻的是:用疯狂的奖励稀疏的手操作,还是学习一个相当短的符号转换序列?Woj Zaremba在2019年NeurIPS的“学习可转移技能”研讨会上提到,他们花了一天时间用DRL“解决立方体”&完全端到端的整个谜题是可能的。这是令人印象深刻。
虽然前两个项目令人兴奋地展示了DRL的潜力,但它们的采样效率低得可笑。我不想知道OpenAI和DeepMind必须支付电费是多少。有一些人通过在潜在空间中虚幻来提高样本(但不一定是计算)的效率,这是件好事。传统上,基于模型的RL一直在努力学习高维状态空间的动力学。
通常,大量的模型容量不得不“浪费”在与状态空间无关的部分(例如,一个ATARI帧的最外层像素),而这与成功很少相关。最近,在一个抽象的空间里有很多关于规划/想象的提议。这是我最喜欢的两种方法:
MuZero (Schrittwieser et al., 2019)
Vinyals, O., I. Babuschkin, W. M.Czarnecki, M. Mathieu, A. Dudzik, J. Chung, D. H. Choi, et al. (2019):“Grandmaster level in StarCraft II using multi-agent reinforcementlearning,”Nature, 575, 350–54.
Akkaya, I., M. Andrychowicz, M. Chociej, M.Litwin, B. McGrew, A. Petron, A. Paino, et al. (2019): “Solving Rubik’s Cubewith a Robot Hand,” arXiv preprint arXiv:1910.07113, .
Schrittwieser, J., I.Antonoglou, T. Hubert, K. Simonyan, L. Sifre, S. Schmitt, A. Guez, et al.(2019): “Mastering atari, go, chess and shogi by planning with a learnedmodel,” arXiv preprint arXiv:1911.08265, .
Hafner, D., T. Lillicrap, J. Ba, andM. Norouzi. (2019): “Dream to Control: Learning Behaviors by LatentImagination,” arXiv preprint arXiv:1912.01603, . Jaques, N., A. Lazaridou, E.Hughes, C. Gulcehre, P. Ortega, D. Strouse, J. Z. Leibo, and N. De Freitas.(2019): “Social Influence as Intrinsic Motivation for Multi-Agent DeepReinforcement Learning,” International Conference on Machine Learning, .
Baker,B., I. Kanitscheider, T. Markov, Y. Wu, G. Powell, B. McGrew, and I. Mordatch.(2019): “Emergent tool use from multi-agent autocurricula,” arXiv preprintarXiv:1909.07528, .
Rabinowitz, N. C. (2019): “Meta-learners’ learning dynamicsare unlike learners,’” arXiv preprint arXiv:1905.01320, .
Schaul, T., D. Borsa,J. Modayil, and R. Pascanu. (2019): “Ray Interference: a Source of Plateaus inDeep Reinforcement Learning,” arXiv preprint arXiv:1904.11455, .
Galashov, A.,S. M. Jayakumar, L. Hasenclever, D. Tirumala, J. Schwarz, G. Desjardins, W. M.Czarnecki, Y. W. Teh, R. Pascanu, and N. Heess. (2019): “Information asymmetryin KL-regularized RL,” arXiv preprint arXiv:1905.01240, .
Merel, J., L.Hasenclever, A. Galashov, A. Ahuja, V. Pham, G. Wayne, Y. W. Teh, and N. Heess.(2018): “Neural probabilistic motor primitives for humanoid control,” arXiv preprint arXiv:1811.11711, .
Lowe, R., Y. Wu, A. Tamar, J. Harb, O. A. I. P.Abbeel, and I. Mordatch. (2017): “Multi-Agent Actor-Critic for MixedCooperative-Competitive Environments,” Advances in Neu ral InformationProcessing Systems, .
Saxe, A. M., J. L. McClelland, and S. Ganguli. (2013):“Exact solutions to the nonlinear dynamics of learning in deep linear neuralnetworks,” arXiv preprint arXiv:1312.6120, .
Rahaman, N., A. Baratin, D. Arpit,F. Draxler, M. Lin, F. A. Hamprecht, Y. Bengio, and A. Courville. (2018): “Onthe spectral bias of neural networks,” arXiv preprint arXiv:1806.08734, .
Wang,J. X., Z. Kurth-Nelson, D. Tirumala, H. Soyer, J. Z. Leibo, R. Munos, C.Blundell, D. Kumaran, and M. Botvinick. “Learning to reinforcement learn,2016,” arXiv preprint arXiv:1611.05763, .
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
随时掌握互联网精彩
- 1 准确把握守正创新的辩证关系 7976419
- 2 搞“人草大战” 副市长等9人被处理 7982054
- 3 32岁飞行员失联车内情况被还原 7881307
- 4 消费品以旧换新“加速度” 7710561
- 5 吴柳芳再被禁言 掉粉600多万 7667459
- 6 强占人妻区长人大代表资格终止 7505821
- 7 陈冠希晒女儿滑冰照片:她是天使 7433028
- 8 男子闪婚发现妻子结过7次婚6个娃 7359341
- 9 《新闻联播》披露他生前最后画面 7205266
- 10 王大发回应刘诗诗方公函 7111133