强化学习入门教程(附学习大纲)
零基础,想要入门或从事强化学习研究的同学有福了!
CSDN学院特邀资深讲师为大家分享《强化学习深入浅出完全教程》从零基础开始入门强化学习,在教学的过程中,配合 具体案例、代码演示 ,
让大家可以 一目了然,快速上手 。
主讲老师
郭宪 南开大学计算机与控制工程学院博士后,AI 教研室团队成员
2009年毕业于华中科技大学机械设计制造及自动化专业,同年保送到中国科学院沈阳自动化研究所进行硕博连读,主攻机器人动力学建模与控制,于2016年1月获得工学博士学位,期间在国内外知名杂志和会议发表论文数10篇。2016年以来, 郭博士主攻方向为机器人智能感知和智能决策,目前主持两项国家级课题,内容涉及深度学习,深度强化学习等智能算法在机器人领域中的应用。
课程简介
深入浅出地介绍强化学习的概念,算法发展历史,分类,及发展趋势。
在教学的过程中,配合具体案例、代码演示,让学员可以一目了然,快速上手。
学习收益
通过本课程的学习,学员将会收获:
1. 帮助学员系统性的掌握强化学习知识,并运用到具体工作中。
2. 实践与理论结合,培养学员在强化学习领域深入思考及实践能力
开课时间
2月6日起,每周二、四20:00 - 22:00在线直播
直播后提供录制回放视频,可在线反复观看,有效期2年
课程大纲
第一课: 强化学习概述
1. 强化学习要解决的问题
2. 强化学习的发展历史
3. 强化学习方法的分类
4. 强化学习方法的发展趋势
第二课: 马尔科夫决策过程
1. 基本概念,马尔科夫性、马尔科夫过程、马尔科夫决策过程
2. MDP基本元素:策略、回报、值函数、状态行为值函数
3. 贝尔曼方程、最优策略。
4. 强化学习的数学形式化
5. Python介绍,及简单的代码演示。
第三课: 基于模型的动态规划方法
1. 动态规划概念介绍
2. 策略评估过程介绍
3. 策略改进方法介绍
4. 策略迭代和值迭代
5. 值迭代与最优控制介绍
6. 基于 python 的动态规划方法演示
第四课: 蒙特卡罗方法
1. 蒙特卡罗策略评估方法
2. 蒙特卡罗策略改进方法
3. 基于蒙特卡罗的强化学习方法
4. 同策略和异策略强化学习
5. 重要性采样
6. 基于 python 的蒙特卡罗强化学习方法演示
第五课: 时间差分方法
1. DP,MC 和 TD 方法比较
2. MC 和 TD 方法偏差与方差平衡
3. 同策略 TD 方法:Sarsa 方法
4. 异策略 TD 方法:Qlearning 方法
5. N 步预测及 的前向和后向观点
6. 基于 python 的 TD 方法实现
第六课: Gym环境构建及强化学习算 法实现
1. Gym环境的安装和测试
2. Gym环境创建的关键函数讲解
3. 创建自己的Gym环境讲解
4. 基于自己创建的Gym环境实现 MC,TD等算法
第七课: 值函数逼近方法
1. 值函数的参数化表示
2. 值函数的估计过程
3. 值函数的优化方法,随机梯度下降和半梯度下降法
4. 值函数的线性逼近
第八课: DQN方法及其变种
1. DQN 方法介绍
2. DQN 变种 Double DQN, Prioritized Replay, Dueling Network
第九课: 策略梯度方法
1. 策略梯度方法介绍
2. 似然率策略梯度推导及重要性采样视角推导
3. 似然率策略梯度的直观理解
4. 常见的策略表示
5. 常见的减小方差的方法:引入基函数法,修改估计值函数法
加入课程群
点击“阅读全文”立即查看课程详情
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
随时掌握互联网精彩
- 1 准确把握守正创新的辩证关系 7935823
- 2 中国黄金原董事长家搜出大量黄金 7949933
- 3 空调英文不会男生盯着考场空调看 7833200
- 4 消费品以旧换新“加速度” 7795408
- 5 被铁路售票员的手速惊到了 7614475
- 6 网红赤木刚宪爆改赵露思 7564825
- 7 县委原书记大搞“刷白墙”被通报 7444153
- 8 山姆代购在厕所分装蛋糕 7378578
- 9 马龙刘诗雯穿正装打混双 7247405
- 10 刘强东提前发年终奖 7198566