收起左侧

[人工智能] 七月在线_ 强化学习 [一举解开AlphaGo Zero的百胜奥秘]

71
回复
  [复制链接]

2

主题

11

回帖

164

积分
发表于 2017-12-2 09:20:00 | 显示全部楼层 |阅读模式
七月在线_ 强化学习 [一举解开AlphaGo Zero的百胜奥秘]

课程简介
强化学习,被誉为可能通向强人工智能的第三类机器学习方法,在AI游戏领域的应用已司空见惯,如自动玩flappy bird,借助强化学习玩星际争霸,最近非常火的王者荣耀也不例外;在无人驾驶、自动交易等领域也有着举足轻重的作用。
《强化学习》课程,带你揭秘AlphaGo和星际争霸/王者荣耀,华尔街最热门的自动交易算法背后的技术及无人驾驶的关键点。

课程特色
1)从模型无关到模型相关,从Q-learning到Policy gradient,全面涵盖主流强化学习内容知识
2)与工业级ML算法紧密结合的应用案例讲解
3)配套实验环境与GPU服务器

第1课 强化学习RL简介
知识点1:强化学习定义:可能通向强人工智能的第三类机器学习方法
知识点2:强化学习数学模型:马尔科夫决策过程(MDP)
知识点3:RL机器人:探索环境,规划自己的人生
知识点4:强化学习基本算法分类
知识点5:Model-Based RL: 已知环境,如何优化自己的人生

第2课 Model—Free Learning
知识点1:环境未知,如何评估测略(状态价值)
知识点2:蒙特卡洛方法学习状态价值函数
知识点3:TD方法学习状态价值函数
实战项目:两种方法比较及代码实现
知识点5:OpenAI Gym介绍

第3课 Model-Free Control
知识点1:ϵ− 贪婪策略:平衡 Exploration and Exploitation
知识点2:on/off-policy 蒙特卡洛方法
知识点3:on/off-policy TD 算法 (Sara)
实战项目:on/off-policy 算法比较及代码实现

第4课 Q-Learning
知识点1:Q-Learning
知识点2:Deep Q-Learning
实战项目:Q-learning解决山地车问题

第5课 策略梯度学习
知识点1:蒙特卡洛策略梯度
知识点2:Actor-Critic算法
实战项目:用policy gradient解决连续山地车的问题

第6课 TensorFlow强化学习应用案例
实战项目:使用Deep Q network 和 Policy gradient完成以下游戏:强化学习乒乓球游戏、强化学习flappy bird

下载:qy
游客,如果您要查看本帖隐藏内容请回复


参与人数 1金币 +200 收起 理由
itjc8 + 200 站长在此感谢了!!

查看全部评分总评分 : 金币 +200

2

主题

-2

回帖

146

积分

发表于 2017-12-2 09:31:03 | 显示全部楼层
感謝分享 支持了

6

主题

26

回帖

2268

积分
发表于 2017-12-2 09:41:30 | 显示全部楼层
gogogog

2

主题

-2

回帖

4676

积分
发表于 2017-12-2 09:47:49 | 显示全部楼层
谢谢,收了

2

主题

151

回帖

1万

积分
发表于 2017-12-2 09:55:53 | 显示全部楼层
这个有点给力

0

主题

436

回帖

1878

积分
发表于 2017-12-2 21:54:59 | 显示全部楼层
dsaffffffffffffffffdsaffffffffffffffffdsaffffffffffffffff

1

主题

276

回帖

6347

积分
发表于 2017-12-3 08:44:43 | 显示全部楼层
66666666666666

0

主题

4

回帖

101

积分

发表于 2017-12-3 13:00:22 | 显示全部楼层
谢谢楼主分享,辛苦了。

0

主题

1477

回帖

8613

积分
发表于 2018-5-29 22:05:37 | 显示全部楼层
七月在线_ 强化学习 [
IT教程吧走一走,高薪 ...

5

主题

651

回帖

1159

积分
发表于 2018-6-22 13:22:22 | 显示全部楼层
感谢分享!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则