作者 |
刘驰 王占健 戴子彭 等 |
丛书名 |
智能科学与技术丛书 |
出版社 |
机械工业出版社 |
ISBN |
9782110261426 |
简要 |
简介 |
内容简介书籍计算机书籍 ---------------------------8067636 - 深度强化学习:学术前沿与实战应用--------------------------- 着重介绍深度强化学习的学术界前沿进展与核心代码分析的书籍。对深度强化学习方面的重要学术进展按照单智能体深度强化学习、多智能体深度强化学习、多任务深度强化学习三个方向梳理,介绍其核心算法,以及算法的代码实现示例。 ---------------------------8052964 - 分布式机器学习:算法、理论与实践--------------------------- 介绍分布式机器学习的现状,深入分析其中的核心技术问题,并且讨论该领域未来的发展方向。 全书共12章。第1章是绪论,向大家展示分布式机器学习这个领域的全景。第2章介绍机器学习的基础知识。第3章到第8章是本书的核心部分,向大家细致地讲解分布式机器学习的框架及其各个功能模块。其中第3章给出整个分布式机器学习框架的综述,而第4章到第8章则分别针对其中的数据与模型划分模块、单机优化模块、通信模块、数据与模型聚合模块加以介绍。接下来的三章是对前面内容的总结与升华。其中第9章介绍由分布式机器学习框架中不同选项所组合出来的各式各样的分布式机器学习算法,第10章讨论这些算法的理论性质,第11章则介绍几个主流的分布式机器学习系统(包括Spark MLlib 迭代式MapReduce系统,Multiverso参数服务器系统,TensorFlow数据流系统)。最后的第12章是全书的结语,在对全书内容进行简要总结之后,着重讨论分布式机器学习这个领域未来的发展方向。 本书基于微软亚洲研究院机器学习研究团队多年的研究成果和实践经验写成,既可以作为研究生从事分布式机器学习方向研究的参考文献,也可以作为人工智能从业者进行算法选择和系统设计的工具书。 人工智能大潮中,市场上已有许多机器学习书籍,但是分布式机器学习的专门书籍还很少见。本书是希望学习和了解分布式机器学习的读者的福音。 |
目录 |
[套装书具体书目] 8052964 - 分布式机器学习:算法、理论与实践 - 9787111609186 - 机械工业出版社 - 定价 89 8067636 - 深度强化学习:学术前沿与实战应用 - 9787111646648 - 机械工业出版社 - 定价 99 ---------------------------8067636 - 深度强化学习:学术前沿与实战应用--------------------------- 前言 致谢 数学符号 第一篇 深度强化学习 第1章 深度强化学习基础 2 1.1 强化学习 2 1.1.1 强化学习的发展历史 2 1.1.2 强化学习简介 4 1.1.3 深度强化学习简介 6 1.2 马尔可夫属性和决策过程 9 1.2.1 马尔可夫属性 9 1.2.2 马尔可夫决策过程 11 1.3 强化学习核心概念 12 1.3.1 值函数 12 1.3.2 动态规划 14 1.3.3 时间(序)差分 15 1.3.4 策略梯度 16 1.3.5 actor-critic方法 17 1.4 Q-learning 18 1.4.1 Q-learning简介 18 1.4.2 算法 19 1.4.3 相关变量及影响 20 1.4.4 实现方法 21 第2章 深度强化学习算法 22 2.1 基于值的深度强化学习算法 22 2.1.1 深度Q网络 22 2.1.2 深度双Q网络 27 2.1.3 竞争网络架构 31 2.1.4 平均值DQN 33 2.1.5 多DQN变种结合体:Rainbow 37 2.1.6 基于动作排除的DQN 42 2.2 基于策略的深度强化学习算法 46 2.2.1 循环确定性策略梯度 46 2.2.2 深度确定性策略梯度 55 2.2.3 信赖域策略优化 62 2.2.4 近端策略优化 68 2.3 基于模型的深度强化学习算法 73 2.3.1 基于模型加速的连续深度Q-learning 73 2.3.2 范例模型探索 80 2.3.3 基于模型集成的信赖域策略优化 88 2.3.4 时间差分模型 95 2.4 基于分层的深度强化学习算法 102 2.4.1 分层深度强化学习 102 2.4.2 基于封建网络的分层强化学习 109 2.4.3 基于随机神经网络的分层强化学习 116 第3章 分布式深度强化学习 123 3.1 分布式系统 123 3.1.1 分布式系统简介 123 3.1.2 分布式系统的发展历史 124 3.1.3 架构演进 125 3.1.4 主流分布式系统框架 128 3.2 分布式深度强化学习算法 129 3.2.1 分布式近端策略优化 129 3.2.2 分布式深度确定性策略梯度 138 3.3 分布式深度强化学习框架 145 3.3.1 重要性加权Actor-Learner架构 145 3.3.2 分布式优先经验复用池 153 第二篇 多智能体深度强化学习 第4章 多智能体深度强化学习基础 162 4.1 多智能体强化学习 162 4.1.1 多智能体强化学习发展历史 162 4.1.2 多智能体强化学习简介 164 4.1.3 优势和挑战 166 4.2 部分可见马尔可夫决策过程 166 4.2.1 POMDP模型 166 4.2.2 POMDP相关研究 169 4.2.3 POMDP应用领域 170 第5章 多智能体深度强化学习算法 171 5.1 基于值函数的多智能体深度强化学习 171 5.1.1 基于DQN的多智能体网络 171 5.1.2 增强智能体间学习 174 5.1.3 协同多智能体学习的价值分解网络 178 5.1.4 多智能体深度强化学习的稳定经验复用池 182 5.1.5 单调值函数分解 187 5.1.6 深度强化学习中的对立智能体建模 190 5.1.7 平均场多智能体强化学习 193 5.2 基于策略的多智能体深度强化学习 197 5.2.1 基于自身策略的其他智能体行为预测 197 5.2.2 双重平均方案 201 5.2.3 多智能体深度强化学习的统一博弈论方法 208 5.3 基于AC框架的多智能体深度强化学习 212 5.3.1 多智能体深度确定性策略梯度 212 5.3.2 多智能体集中规划的价值函数策略梯度 220 5.3.3 多智能体系统的策略表示学习 227 5.3.4 部分可观察环境下的多智能体策略优化 231 5.3.5 基于联网智能体的完全去中心化MARL 236 第三篇 多任务深度强化学习 第6章 多任务深度强化学习基础 244 6.1 简介 244 6.1.1 理论概述 244 6.1.2 面临的挑战 247 6.2 策略蒸馏法 248 第7章 多任务深度强化学习算法 253 7.1 无监督强化与辅助学习 253 7.1.1 算法介绍 253 7.1.2 算法分析 255 7.1.3 使用场景与优势分析 261 7.2 使用渐进式神经网络解决任务的复杂序列 262 7.2.1 算法介绍 262 7.2.2 算法分析 262 7.2.3 使用场景与优势分析 266 7.3 基于单智能体的多任务共享模型 267 7.3.1 算法介绍 267 7.3.2 算法分析 268 7.3.3 使用场景与优势分析 272 7.4 使用PopArt归一化多任务更新幅度 273 7.4.1 算法介绍 273 7.4.2 算法分析 274 7.4.3 使用场景与优势分析 276 第四篇 深度强化学习的应用 第8章 游戏 278 8.1 Gym Retro游戏平台 278 8.1.1 平台简介 278 8.1.2 安装Gym Retro平台 281 8.1.3 安装Retro UI 282 8.1.4 Gym Retro主要函数说明 283 8.2 相关应用 285 8.2.1 Pong游戏 285 8.2.2 CartPole 291 8.2.3 Flappy Bird 298 8.2.4 Gradius 302 第9章 机器人控制 312 9.1 机器人导航 312 9.1.1 无地图导航 312 9.1.2 社会感知机器人导航 316 9.2 路径规划 321 9.3 机器人视觉 324 第10章 计算机视觉 327 10.1 图像 327 10.1.1 图像字幕 327 10.1.2 图像恢复 332 10.2 视频 337 10.2.1 视频字幕 337 10.2.2 视频快进 345 10.2.3 视觉跟踪 348 第11章 自然语言处理 354 11.1 与知识库交互的多轮对话智能体 354 11.1.1 概率KB查找 355 11.1.2 端到端KB-InfoBot 356 11.1.3 总结 359 11.2 鲁棒远程监督关系提取 359 11.2.1 问题表述 360 11.2.2 使用基于策略的智能体重新分配训练数据集 363 11.2.3 总结 363 11.3 非成对情感–情感翻译 363 11.3.1 问题表述 363 11.3.2 训练算法 366 11.3.3 总结 367 缩写参照表 368 常用词中英文对照 371 参考文献 374 ---------------------------8052964 - 分布式机器学习:算法、理论与实践--------------------------- 序言一 序言二 前 言 作者介绍 第1章 绪论/ 1 1.1 人工智能及其飞速发展/ 2 1.2 大规模、分布式机器学习/ 4 1.3 本书的安排/ 6 参考文献/ 7 第2章 机器学习基础/ 9 2.1 机器学习的基本概念/ 10 2.2 机器学习的基本流程/ 13 2.3 常用的损失函数/ 16 2.3.1 Hinge损失函数/ 16 2.3.2 指数损失函数/ 16 2.3.3 交叉熵损失函数/ 17 2.4 常用的机器学习模型/ 18 2.4.1 线性模型/ 18 2.4.2 核方法与支持向量机/ 18 2.4.3 决策树与Boosting/ 21 2.4.4 神经网络/ 23 2.5 常用的优化方法/ 32 2.6 机器学习理论/ 33 2.6.1 机器学习算法的泛化误差/ 34 2.6.2 泛化误差的分解/ 34 2.6.3 基于容度的估计误差的上界/ 35 2.7 总结/ 36 参考文献/ 36 第3章 分布式机器学习框架/ 41 3.1 大数据与大模型的挑战/ 42 3.2 分布式机器学习的基本流程/ 44 3.3 数据与模型划分模块/ 46 3.4 单机优化模块/ 48 3.5 通信模块/ 48 3.5.1 通信的内容/ 48 3.5.2 通信的拓扑结构/ 49 3.5.3 通信的步调/ 51 3.5.4 通信的频率/ 52 3.6 数据与模型聚合模块/ 53 3.7 分布式机器学习理论/ 54 3.8 分布式机器学习系统/ 55 3.9 总结/ 56 参考文献/ 57 第4章 单机优化之确定性算法/ 61 4.1 基本概述/ 62 4.1.1 机器学习的优化框架/ 62 4.1.2 优化算法的分类和发展历史/ 65 4.2 一阶确定性算法/ 67 4.2.1 梯度下降法/ 67 4.2.2 投影次梯度下降法/ 69 4.2.3 近端梯度下降法/ 70 4.2.4 Frank-Wolfe算法/ 71 4.2.5 Nesterov加速法/ 72 4.2.6 坐标下降法/ 75 4.3 二阶确定性算法/ 75 4.3.1 牛顿法/ 76 4.3.2 拟牛顿法/ 77 4.4 对偶方法/ 78 4.5 总结/ 81 参考文献/ 8 第5章 单机优化之随机算法/ 85 5.1 基本随机优化算法/ 86 5.1.1 随机梯度下降法/ 86 5.1.2 随机坐标下降法/ 88 5.1.3 随机拟牛顿法/ 91 5.1.4 随机对偶坐标上升法/ 93 5.1.5 小结/ 95 5.2 随机优化算法的改进/ 96 5.2.1 方差缩减方法/ 96 5.2.2 算法组合方法/ 100 5.3 非凸随机优化算法/ 101 5.3.1 Ada系列算法/ 102 5.3.2 非凸理论分析/ 104 5.3.3 逃离鞍点问题/ 106 5.3.4 等级优化算法/ 107 5.4 总结/ 109 参考文献/ 109 第6章 数据与模型并行/ 113 6.1 基本概述/ 114 6.2 计算并行模式/ 117 6.3 数据并行模式/ 119 6.3.1 数据样本划分/ 120 6.3.2 数据维度划分/ 123 6.4 模型并行模式/ 123 6.4.1 线性模型/ 123 6.4.2 神经网络/ 127 6.5 总结/ 133 参考文献/ 133 第7章 通信机制/ 135 7.1 基本概述/ 136 7.2 通信的内容/ 137 7.2.1 参数或参数的更新/ 137 7.2.2 计算的中间结果/ 137 7.2.3 讨论/ 138 7.3 通信的拓扑结构/ 139 7.3.1 基于迭代式MapReduce/AllReduce的通信拓扑/ 140 7.3.2 基于参数服务器的通信拓扑/ 142 7.3.3 基于数据流的通信拓扑/ 143 7.3.4 讨论/ 145 7.4 通信的步调/ 145 7.4.1 同步通信/ 146 7.4.2 异步通信/ 147 7.4.3 同步和异步的平衡/ 148 7.4.4 讨论/ 150 7.5 通信的频率/ 150 7.5.1 时域滤波/ 150 7.5.2 空域滤波/ 153 7.5.3 讨论/ 155 7.6 总结/ 156 参考文献/ 156 第8章 数据与模型聚合/ 159 8.1 基本概述/ 160 8.2 基于模型加和的聚合方法/ 160 8.2.1 基于全部模型加和的聚合/ 160 8.2.2 基于部分模型加和的聚合/ 162 8.3 基于模型集成的聚合方法/ 167 8.3.1 基于输出加和的聚合/ 168 8.3.2 基于投票的聚合/ 171 8.4 总结/ 174 参考文献/ 174 第9章 分布式机器学习算法/ 177 9.1 基本概述/ 178 9.2 同步算法/ 179 9.2.1 同步SGD方法/ 179 9.2.2 模型平均方法及其改进/ 182 9.2.3 ADMM算法/ 183 9.2.4 弹性平均SGD算法/ 185 9.2.5 讨论/ 186 9.3 异步算法/ 187 9.3.1 异步SGD/ 187 9.3.2 Hogwild!算法/ 189 9.3.3 Cyclades算法/ 190 9.3.4 带延迟处理的异步算法/ 192 9.3.5 异步方法的进一步加速/ 199 9.3.6 讨论/ 199 9.4 同步和异步的对比与融合/ 199 9.4.1 同步和异步算法的实验对比/ 199 9.4.2 同步和异步的融合/ 201 9.5 模型并行算法/ 203 9.5.1 DistBelief/ 203 9.5.2 AlexNet/ 204 9.6 总结/ 205 参考文献/ 205 第10章 分布式机器学习理论/ 209 10.1 基本概述/ 210 10.2 收敛性分析/ 210 10.2.1 优化目标和算法/ 211 10.2.2 数据和模型并行/ 213 10.2.3 同步和异步/ 215 10.3 加速比分析/ 217 10.3.1 从收敛速率到加速比/ 218 10.3.2 通信量的下界/ 219 10.4 泛化分析/ 221 10.4.1 优化的局限性/ 222 10.4.2 具有更好泛化能力的非凸优化算法/ 224 10.5 总结/ 226 参考文献/ 226 第11章 分布式机器学习系统/ 229 11.1 基本概述/ 230 11.2 基于IMR的分布式机器学习系统/ 231 11.2.1 IMR和Spark/ 231 11.2.2 Spark MLlib/ 234 11.3 基于参数服务器的分布式机器学习系统/ 236 11.3.1 参数服务器/ 236 11.3.2 Multiverso参数服务器/ 237 11.4 基于数据流的分布式机器学习系统/ 241 11.4.1 数据流/ 241 11.4.2 TensorFlow数据流系统/ 243 11.5 实战比较/ 248 11.6 总结/ 252 参考文献/ 252 第12章 结语/ 255 12.1 全书总结/ 256 12.2 未来展望/ 257 索引/ 260 |