Python强化学习实战：应用OpenAI Gym和TensorFlow精通强化学习和深度强化学习_Python强化学习实战：应用OpenAI Gym和TensorFlow精通强化学习和深度强化学习PDF下载_Python强化学习实战：应用OpenAI Gym和TensorFlow精通强化学习和深度强化学习电子书,介绍,Python强化学习实战：应用OpenAI Gym和TensorFlow精通强化学习和深度强化学习txt,作者,视频教程,在线阅读,Python强化学习实战：应用OpenAI Gym和TensorFlow精通强化学习和深度强化学习Sudharsan Ravichandiran

Python强化学习实战：应用OpenAI Gym和TensorFlow精通强化学习和深度强化学习

作者

Sudharsan Ravichandiran

丛书名

出版社

机械工业出版社*

ISBN

9787111612889

简要

简介

内容简介书籍计算机书籍强化学习是一种重要的机器学习方法，在智能体及分析预测等领域有许多应用。本书共13章，主要包括强化学习的各种要素，即智能体、环境、策略和模型以及相应平台和库；Anaconda、Docker、OpenAIGym、Universe和TensorFlow等安装配置；马尔可夫链和马尔可夫过程及其与强化学习问题建模之间的关系，动态规划的基本概念；蒙特卡罗方法以及不同类型的蒙特卡罗预测和控制方法；时间差分学习、预测、离线/在线策略控制等；多臂赌博机问题以及相关的各种探索策略方法；深度学习的各种基本概念和RNN、LSTM、CNN等神经网络；深度强化学习算法DQN，以及双DQN和对抗网络体系结构等改进架构；DRQN以及DARQN；A3C网络的基本工作原理及架构；策略梯度和优化问题；*后介绍了强化学习的*新进展以及未来发展。

译者序
原书前言
第1章强化学习简介 1
1.1 什么是强化学习 1
1.2 强化学习算法 2
1.3 强化学习与其他机器学习范式的不同 3
1.4 强化学习的要素 3
1.4.1 智能体 3
1.4.2 策略函数 3
1.4.3 值函数 4
1.4.4 模型 4
1.5 智能体环境接口 4
1.6 强化学习的环境类型 5
1.6.1 确定性环境 5
1.6.2 随机性环境 5
1.6.3 完全可观测环境 5
1.6.4 部分可观测环境 5
1.6.5 离散环境 5
1.6.6 连续环境 5
1.6.7 情景和非情景环境 5
1.6.8 单智能体和多智能体环境 6
1.7 强化学习平台 6
1.7.1 OpenAI Gym和Universe 6
1.7.2 DeepMind Lab 6
1.7.3 RL-Glue 6
1.7.4 Project Malmo 6
1.7.5 VizDoom 6
1.8 强化学习的应用 7
1.8.1 教育 7
1.8.2 医疗和健康 7
1.8.3 制造业 7
1.8.4 库存管理 7
1.8.5 金融 7
1.8.6 自然语言处理和计算机视觉 7
1.9 小结 8
1.10 问题 8
1.11 扩展阅读 8
第2章从OpenAI和TensorFlow入门 9
2.1 计算机设置 9
2.1.1 安装Anaconda 9
2.1.2 安装Docker 10
2.1.3 安装OpenAI Gym和Universe 11
2.2 OpenAI Gym 13
2.2.1 基本模拟 13
2.2.2 训练机器人行走 14
2.3 OpenAI Universe 16
2.3.1 构建一个视频游戏机器人 16
2.4 TensorFlow 20
2.4.1 变量、常量和占位符 20
2.4.2 计算图 21
2.4.3 会话 21
2.4.4 TensorBoard 22
2.5 小结 25
2.6 问题 25
2.7 扩展阅读 25
第3章马尔可夫决策过程和动态规划 26
3.1 马尔可夫链和马尔可夫过程 26
3.2 MDP 27
3.2.1 奖励和回报 28
3.2.2 情景和连续任务 28
3.2.3 折扣因数 28
3.2.4 策略函数 29
3.2.5 状态值函数 29
3.2.6 状态行为值函数（Q函数）30
3.3 Bellman方程和最优性 30
3.3.1 推导值函数和Q函数的Bellman方程 31
3.4 求解Bellman方程 32
3.4.1 动态规划 32
3.5 求解冰冻湖问题 38
3.5.1 值迭代 39
3.5.2 策略迭代 43
3.6 小结 45
3.7 问题 45
3.8 扩展阅读 46
第4章基于蒙特卡罗方法的博弈游戏 47
4.1 蒙特卡罗方法 47
4.1.1 利用蒙特卡罗方法估计π值 47
4.2 蒙特卡罗预测 50
4.2.1 首次访问蒙特卡罗 51
4.2.2 每次访问蒙特卡罗 52
4.2.3 利用蒙特卡罗方法玩二十一点游戏 52
4.3 蒙特卡罗控制 58
4.3.1 蒙特卡罗探索开始 58
4.3.2 在线策略的蒙特卡罗控制 59
4.3.3 离线策略的蒙特卡罗控制 61
4.4 小结 62
4.5 问题 62
4.6 扩展阅读 63
第5章时间差分学习 64
5.1 时间差分学习 64
5.2 时间差分预测 64
5.3 时间差分控制 66
5.3.1 Q学习 66
5.3.2 SARSA 72
5.4 Q学习和SARSA之间的区别 77
5.5 小结 77
5.6 问题 78
5.7 扩展阅读 78
第6章 MAB问题 79
6.1 MAB问题 79
6.1.1 ε贪婪策略 80
6.1.2 Softmax探索算法 82
6.1.3 UCB算法 83
6.1.4 Thompson采样算法 85
6.2 MAB的应用 86
6.3 利用MAB识别正确的广告标识 87
6.4 上下文赌博机 89
6.5 小结 89
6.6 问题 89
6.7 扩展阅读 89
第7章深度学习基础 90
7.1 人工神经元 90
7.2 ANN 91
7.2.1 输入层 92
7.2.2 隐层 92
7.2.3 输出层 92
7.2.4 激活函数 92
7.3 深入分析ANN 93
7.3.1 梯度下降 95
7.4 TensorFlow中的神经网络 99
7.5 RNN 101
7.5.1 基于时间的反向传播 103
7.6 LSTM RNN 104
7.6.1 利用LSTM RNN生成歌词 105
7.7 CNN 108
7.7.1 卷积层 109
7.7.2 池化层 111
7.7.3 全连接层 112
7.7.4 CNN架构 112
7.8 利用CNN对时尚产品进行分类 113
7.9 小结 117
7.10 问题 117
7.11 扩展阅读 118
第8章基于DQN的Atari游戏 119
8.1 什么是DQN 119
8.2 DQN的架构 120
8.2.1 卷积网络 120
8.2.2 经验回放 121
8.2.3 目标网络 121
8.2.4 奖励裁剪 122
8.2.5 算法理解 122
8.3 构建一个智能体来玩Atari游戏 122
8.4 双DQN 129
8.5 优先经验回放 130
8.6 对抗网络体系结构 130
8.7 小结 131
8.8 问题 132
8.9 扩展阅读 132
第9章基于DRQN玩Doom游戏 133
9.1 DRQN 133
9.1.1 DRQN架构 134
9.2 训练一个玩Doom游戏的智能体 135
9.2.1 基本的Doom游戏 135
9.2.2 基于DRQN的Doom游戏 136
9.3 DARQN 145
9.3.1 DARQN架构 145
9.4 小结 145
9.5 问题 146
9.6 扩展阅读 146
第10章 A3C网络 147
10.1 A3C 147
10.1.1 异步优势行为者 147
10.1.2 A3C架构 148
10.1.3 A3C的工作原理 149
10.2 基于A3C爬山 149
10.2.1 TensorBoard中的可视化 155
10.3 小结 158
10.4 问题 158
10.5 扩展阅读 158
第11章策略梯度和优化 159
11.1 策略梯度 159
11.1.1 基于策略梯度的月球着陆器 160
11.2 DDPG 164
11.2.1 倒立摆 165
11.3 TRPO 170
11.4 PPO 173
11.5 小结 175
11.6 问题 175
11.7 扩展阅读 175
第12章 Capstone项目基于DQN的赛车游戏 176
12.1 环境封装函数 176
12.2 对抗网络 179
12.3 回放记忆 180
12.4 训练网络 181
12.5 赛车游戏 186
12.6 小结 189
12.7 问题 189
12.8 扩展阅读 189
第13章最新进展和未来发展 190
13.1 I2A 190
13.2 基于人类偏好的学习 193
13.3 DQfd 194
13.4 HER 195
13.5 HRL 196
13.5.１ MAXQ值函数分解 196
13.6 逆向强化学习 198
13.7 小结 199
13.8 问题 199
13.9 扩展阅读 199
附录知识点 200

Python强化学习实战：应用OpenAI Gym和TensorFlow精通强化学习和深度强化学习

推荐