酷应用

强化学习入门教程（附学习大纲）

百家作者：AI100 2018-01-25 11:27:14

零基础，想要入门或从事强化学习研究的同学有福了！

CSDN学院特邀资深讲师为大家分享《强化学习深入浅出完全教程》从零基础开始入门强化学习，在教学的过程中，配合具体案例、代码演示，

让大家可以一目了然，快速上手。

主讲老师

郭宪南开大学计算机与控制工程学院博士后，AI 教研室团队成员

2009年毕业于华中科技大学机械设计制造及自动化专业，同年保送到中国科学院沈阳自动化研究所进行硕博连读，主攻机器人动力学建模与控制，于2016年1月获得工学博士学位，期间在国内外知名杂志和会议发表论文数10篇。2016年以来，郭博士主攻方向为机器人智能感知和智能决策，目前主持两项国家级课题，内容涉及深度学习，深度强化学习等智能算法在机器人领域中的应用。

课程简介

深入浅出地介绍强化学习的概念，算法发展历史，分类，及发展趋势。

在教学的过程中，配合具体案例、代码演示，让学员可以一目了然，快速上手。

学习收益

通过本课程的学习，学员将会收获：

1. 帮助学员系统性的掌握强化学习知识，并运用到具体工作中。

2. 实践与理论结合，培养学员在强化学习领域深入思考及实践能力

开课时间

2月6日起，每周二、四20:00 - 22:00在线直播

直播后提供录制回放视频，可在线反复观看，有效期2年

课程大纲

第一课：强化学习概述

1. 强化学习要解决的问题

2. 强化学习的发展历史
3. 强化学习方法的分类
4. 强化学习方法的发展趋势

第二课：马尔科夫决策过程

1. 基本概念，马尔科夫性、马尔科夫过程、马尔科夫决策过程

2. MDP基本元素：策略、回报、值函数、状态行为值函数

3. 贝尔曼方程、最优策略。

4. 强化学习的数学形式化

5. Python介绍，及简单的代码演示。

第三课：基于模型的动态规划方法

1. 动态规划概念介绍

2. 策略评估过程介绍
3. 策略改进方法介绍
4. 策略迭代和值迭代
5. 值迭代与最优控制介绍
6. 基于 python 的动态规划方法演示

第四课：蒙特卡罗方法

1. 蒙特卡罗策略评估方法

2. 蒙特卡罗策略改进方法

3. 基于蒙特卡罗的强化学习方法

4. 同策略和异策略强化学习

5. 重要性采样

6. 基于 python 的蒙特卡罗强化学习方法演示

第五课：时间差分方法

1. DP，MC 和 TD 方法比较
2. MC 和 TD 方法偏差与方差平衡
3. 同策略 TD 方法：Sarsa 方法
4. 异策略 TD 方法：Qlearning 方法
5. N 步预测及的前向和后向观点
6. 基于 python 的 TD 方法实现

第六课： Gym环境构建及强化学习算法实现

1. Gym环境的安装和测试
2. Gym环境创建的关键函数讲解
3. 创建自己的Gym环境讲解
4. 基于自己创建的Gym环境实现 MC，TD等算法

第七课：值函数逼近方法

1. 值函数的参数化表示
2. 值函数的估计过程
3. 值函数的优化方法，随机梯度下降和半梯度下降法
4. 值函数的线性逼近

第八课： DQN方法及其变种

1. DQN 方法介绍
2. DQN 变种 Double DQN, Prioritized Replay, Dueling Network

第九课：策略梯度方法
1. 策略梯度方法介绍
2. 似然率策略梯度推导及重要性采样视角推导
3. 似然率策略梯度的直观理解
4. 常见的策略表示
5. 常见的减小方差的方法：引入基函数法，修改估计值函数法

加入课程群