作者 |
劳拉·格雷泽 龚辉伦 伊凡·瓦西列夫 |
丛书名 |
智能科学与技术丛书 |
出版社 |
机械工业出版社 |
ISBN |
9782109261818 |
简要 |
简介 |
内容简介书籍计算机书籍 ---------------------------8084166 - 深度强化学习:基于Python的理论及实践--------------------------- 本书介绍了深度强化学习理论和实现的独特结合。它从入门开始,然后详细地解释了深度强化学习算法的理论,也讨论了它的配套软件库SLM实验室的实现,并以使深度强化学习工作的实际细节结束。 ---------------------------8083846 - Python深度学习:模型、方法与实现--------------------------- 本书集合了基于应用领域的高级深度学习的模型、方法和实现。本书分为四部分。第1部分介绍了深度学习的构建和神经网络背后的数学知识。第二部分讨论深度学习在计算机视觉领域的应用。第三部分阐述了自然语言和序列处理。讲解了使用神经网络提取复杂的单词向量表示。讨论了各种类型的循环网络,如长短期记忆网络和门控循环单元网络。第四部分介绍一些虽然还没有被广泛采用但有前途的深度学习技术,包括如何在自动驾驶上应用深度学习。学完本书,读者将掌握与深度学习相关的关键概念,学会如何使用TensorFlow和PyTorch实现相应的AI解决方案。 |
目录 |
[套装书具体书目] 8083846 - Python深度学习:模型、方法与实现 - 9787111688457 - 机械工业出版社 - 定价 129 8084166 - 深度强化学习:基于Python的理论及实践 - 9787111689331 - 机械工业出版社 - 定价 119 ---------------------------8084166 - 深度强化学习:基于Python的理论及实践--------------------------- 赞誉 译者序 序言 前言 致谢 第1章 强化学习简介1 1.1 强化学习1 1.2 强化学习中的MDP4 1.3 强化学习中的学习函数7 1.4 深度强化学习算法9 1.4.1 基于策略的算法9 1.4.2 基于值的算法10 1.4.3 基于模型的算法10 1.4.4 组合方法11 1.4.5 本书中的算法12 1.4.6 同策略和异策略算法12 1.4.7 小结12 1.5 强化学习中的深度学习13 1.6 强化学习与监督学习14 1.6.1 缺乏先知14 1.6.2 反馈稀疏性15 1.6.3 数据生成15 1.7 总结16 第一部分 基于策略的算法和基于值的算法 第2章 REINFORCE18 2.1 策略18 2.2 目标函数19 2.3 策略梯度19 2.3.1 策略梯度推导20 2.4 蒙特卡罗采样22 2.5 REINFORCE算法23 2.5.1 改进的REINFORCE算法23 2.6 实现REINFORCE24 2.6.1 一种最小化REINFORCE的实现24 2.6.2 用PyTorch构建策略26 2.6.3 采样动作28 2.6.4 计算策略损失29 2.6.5 REINFORCE训练循环30 2.6.6 同策略内存回放31 2.7 训练REINFORCE智能体33 2.8 实验结果36 2.8.1 实验:评估折扣因子γ的影响36 2.8.2 实验:评估基准线的影响37 2.9 总结39 2.10 扩展阅读39 2.11 历史回顾39 第3章 SARSA40 3.1 Q函数和V函数40 3.2 时序差分学习42 3.2.1 时间差分学习示例44 3.3 SARSA中的动作选择48 3.3.1 探索和利用49 3.4 SARSA算法50 3.4.1 同策略算法51 3.5 实现SARSA52 3.5.1 动作函数:ε-贪婪52 3.5.2 计算Q损失52 3.5.3 SARSA训练循环54 3.5.4 同策略批处理内存回放55 3.6 训练SARSA智能体56 3.7 实验结果58 3.7.1 实验:评估学习率的影响58 3.8 总结60 3.9 扩展阅读60 3.10 历史回顾60 第4章 深度Q网络62 4.1 学习DQN中的Q函数62 4.2 DQN中的动作选择64 4.2.1 Boltzmann策略65 4.3 经验回放67 4.4 DQN算法68 4.5 实现DQN69 4.5.1 计算Q损失70 4.5.2 DQN训练循环70 4.5.3 内存回放71 4.6 训练DQN智能体74 4.7 实验结果77 4.7.1 实验:评估网络架构的影响77 4.8 总结78 4.9 扩展阅读79 4.10 历史回顾79 第5章 改进的深度Q网络80 5.1 目标网络80 5.2 双重DQN算法82 5.3 优先级经验回放85 5.3.1 重要性抽样86 5.4 实现改进的DQN88 5.4.1 网络初始化88 5.4.2 计算Q损失89 5.4.3 更新目标网络90 5.4.4 包含目标网络的DQN91 5.4.5 双重DQN91 5.4.6 优先级经验回放91 5.5 训练DQN智能体玩Atari游戏96 5.6 实验结果101 5.6.1 实验:评估双重DQN与PER的影响101 5.7 总结104 5.8 扩展阅读104 第二部分 组合方法 第6章 优势演员-评论家算法106 6.1 演员106 6.2 评论家107 6.2.1 优势函数107 6.2.2 学习优势函数110 6.3 A2C算法111 6.4 实现A2C113 6.4.1 优势估计113 6.4.2 计算值损失和策略损失115 6.4.3 演员-评论家训练循环116 6.5 网络架构117 6.6 训练A2C智能体118 6.6.1 在Pong上使用n步回报的A2C算法118 6.6.2 在Pong上使用GAE的A2C算法121 6.6.3 在BipedalWalker上使用n步回报的A2C算法122 6.7 实验结果124 6.7.1 实验:评估n步回报的影响124 6.7.2 实验:评估GAE中λ的影响126 6.8 总结127 6.9 扩展阅读128 6.10 历史回顾128 第7章 近端策略优化算法130 7.1 替代目标函数130 7.1.1 性能突然下降130 7.1.2 修改目标函数132 7.2 近端策略优化136 7.3 PPO算法139 7.4 实现PPO141 7.4.1 计算PPO的策略损失141 7.4.2 PPO训练循环142 7.5 训练PPO智能体143 7.5.1 在Pong上使用PPO算法143 7.5.2 在BipedalWalker上使用PPO算法146 7.6 实验结果149 7.6.1 实验:评估GAE中λ的影响149 7.6.2 实验:评估裁剪变量ε的影响150 7.7 总结152 7.8 扩展阅读152 第8章 并行方法153 8.1 同步并行153 8.2 异步并行154 8.2.1 Hogwild!算法155 8.3 训练A3C智能体157 8.4 总结160 8.5 扩展阅读160 第9章 算法总结161 第三部分 实践细节 第10章 深度强化学习工程实践164 10.1 软件工程实践164 10.1.1 单元测试164 10.1.2 代码质量169 10.1.3 Git工作流170 10.2 调试技巧171 10.2.1 生命迹象172 10.2.2 策略梯度诊断172 10.2.3 数据诊断173 10.2.4 预处理器174 10.2.5 内存174 10.2.6 算法函数174 10.2.7 神经网络175 10.2.8 算法简化177 10.2.9 问题简化177 10.2.10 超参数178 10.2.11 实验室工作流178 10.3 Atari技巧179 10.4 深度强化学习小结181 10.4.1 超参数表181 10.4.2 算法性能比较184 10.5 总结186 第11章 SLM Lab187 11.1 SLM Lab算法实现187 11.2 spec文件188 11.2.1 搜索spec语法190 11.3 运行SLM Lab192 11.3.1 SLM Lab指令193 11.4 分析实验结果193 11.4.1 实验数据概述193 11.5 总结195 第12章 神经网络架构196 12.1 神经网络的类型196 12.1.1 多层感知机196 12.1.2 卷积神经网络198 12.1.3 循环神经网络199 12.2 选择网络族的指导方法199 12.2.1 MDP与POMDP200 12.2.2 根据环境选择网络202 12.3 网络API204 12.3.1 输入层和输出层形状推断205 12.3.2 自动构建网络207 12.3.3 训练步骤209 12.3.4 基础方法的使用210 12.4 总结211 12.5 扩展阅读212 第13章 硬件213 13.1 计算机213 13.2 数据类型217 13.3 在强化学习中优化数据类型219 13.4 选择硬件222 13.5 总结223 第四部分 环境设计 第14章 状态226 14.1 状态示例226 14.2 状态完整性231 14.3 状态复杂性231 14.4 状态信息损失235 14.4.1 图像灰度235 14.4.2 离散化235 14.4.3 散列冲突236 14.4.4 元信息损失236 14.5 预处理238 14.5.1 标准化239 14.5.2 图像预处理240 14.5.3 时间预处理241 14.6 总结244 第15章 动作245 15.1 动作示例245 15.2 动作完整性247 15.3 动作复杂性248 15.4 总结251 15.5 扩展阅读:日常事务中的动作设计252 第16章 奖励255 16.1 奖励的作用255 16.2 奖励设计准则256 16.3 总结259 第17章 转换函数260 17.1 可行性检测260 17.2 真实性检测262 17.3 总结263后记264 附录A 深度强化学习时间线267 附录B 示例环境269 参考文献274 ---------------------------8083846 - Python深度学习:模型、方法与实现--------------------------- 译者序 前言 作者简介 审校者简介 第一部分核心概念 第1章神经网络的具体细节2 1.1神经网络的数学基础2 1.1.1线性代数2 1.1.2概率介绍6 1.1.3微分学16 1.2神经网络的简单介绍18 1.2.1神经元18 1.2.2层的运算19 1.2.3神经网络21 1.2.4激活函数22 1.2.5通用逼近定理25 1.3训练神经网络27 1.3.1梯度下降27 1.3.2代价函数28 1.3.3反向传播30 1.3.4权重初始化32 1.3.5SGD改进33 1.4总结35 第二部分计算机视觉 第2章理解卷积网络38 2.1理解CNN38 2.1.1卷积类型43 2.1.2提高CNN的效率46 2.1.3可视化CNN51 2.1.4CNN正则化54 2.2迁移学习介绍56 2.2.1使用PyTorch实现迁移学习57 2.2.2使用TensorFlow 2.0实现迁移学习62 2.3总结66 第3章高级卷积网络67 3.1AlexNet介绍67 3.2VGG介绍68 3.3理解残差网络70 3.4理解Inception网络78 3.4.1Inception v179 3.4.2Inception v2和v380 3.4.3Inception v4和InceptionResNet81 3.5Xception介绍82 3.6MobileNet介绍83 3.7DenseNet介绍85 3.8神经架构搜索的工作原理87 3.9胶囊网络介绍91 3.9.1卷积网络的局限性91 3.9.2胶囊92 3.9.3胶囊网络的结构94 3.10总结95 第4章对象检测与图像分割96 4.1对象检测介绍96 4.1.1对象检测的方法96 4.1.2使用YOLO v3进行对象检测98 4.1.3使用Faster RCNN进行对象检测104 4.2图像分割介绍110 4.2.1使用UNet进行语义分割110 4.2.2使用Mask RCNN进行实例分割112 4.3总结115 第5章生成模型116 5.1生成模型的直觉和证明116 5.2VAE介绍117 5.3GAN介绍124 5.3.1训练GAN125 5.3.2实现GAN128 5.3.3训练GAN的缺陷129 5.4GAN的类型129 5.4.1DCGAN130 5.4.2CGAN135 5.4.3WGAN137 5.4.4使用CycleGAN实现图像到图像的转换142 5.5艺术风格迁移介绍150 5.6总结151 第三部分自然语言和序列处理 第6章语言建模154 6.1理解ngram154 6.2神经语言模型介绍156 6.2.1神经概率语言模型157 6.2.2word2vec158 6.2.3GloVe模型161 6.3实现语言模型164 6.3.1训练嵌入模型164 6.3.2可视化嵌入向量166 6.4总结169 第7章理解RNN170 7.1RNN介绍170 7.2长短期记忆介绍180 7.3门控循环单元介绍187 7.4实现文本分类189 7.5总结193 第8章seq2seq模型和注意力机制194 8.1seq2seq模型介绍194 8.2使用注意力的seq2seq196 8.2.1Bahdanau Attention196 8.2.2Luong Attention199 8.2.3一般注意力200 8.2.4使用注意力实现seq2seq201 8.3理解transformer207 8.3.1transformer注意力207 8.3.2transformer模型210 8.3.3实现transformer212 8.4transformer语言模型219 8.4.1基于transformer的双向编码器表示219 8.4.2transformerXL224 8.4.3XLNet227 8.4.4使用transformer语言模型生成文本230 8.5总结231 第四部分展望未来 第9章新兴的神经网络设计234 9.1GNN介绍234 9.1.1循环GNN236 9.1.2卷积图神经网络238 9.1.3图自编码器244 9.1.4神经图学习246 9.2记忆增强神经网络介绍251 9.2.1神经图灵机251 9.2.2MANN*256 9.3总结257 第10章元学习258 10.1元学习介绍258 10.1.1零样本学习259 10.1.2单样本学习260 10.1.3元训练和元测试261 10.2基于度量的元学习262 10.2.1为单样本学习匹配网络263 10.2.2孪生网络264 10.2.3原型网络267 10.3基于优化的元学习269 10.4总结274 第11章自动驾驶汽车的深度学习275 11.1自动驾驶汽车介绍275 11.1.1自动驾驶汽车研究简史275 11.1.2自动化的级别277 11.2自动驾驶汽车系统的组件278 11.2.1环境感知280 11.2.2路径规划282 11.33D数据处理介绍282 11.4模仿驾驶策略285 11.5ChauffeurNet驾驶策略294 11.5.1输入/输出表示294 11.5.2模型架构296 11.5.3训练297 11.6总结300 |