作者 |
布奇·昆托 拉蒂普·杜瓦曼普里特·辛格·古特 |
丛书名 |
智能系统与技术丛书 |
出版社 |
机械工业出版社 |
ISBN |
9782105211726 |
简要 |
简介 |
内容简介书籍计算机书籍 ---------------------------8080976 - 基于Spark的下一代机器学习:XGBoost、LightGBM、Spark NLP与Keras分布式深度学习实例--------------------------- 本书先简单介绍了Spark和Spark MLlib,然后介绍标准Spark MLlib库之外的更强大的第三方机器学习算法和库。通过阅读本书,你将能够通过几十个实际的例子和深刻的解释,将所学到的知识应用到真实世界的用例。 ---------------------------8060194 - Keras深度学习实战--------------------------- 本书从实用的角度出发,全方面介绍了使用Keras如何解决深度学习中的各类问题。假设读者无任何关于深度学习编程的基础知识,本书首先介绍了Keras这一高度模块化、极简式的深度学习框架的安装、配置和编译等平台搭建只是,而后详细介绍了深度学习所要求的数据预处理等基本内容,在此基础上本书介绍了卷积神经网络、生成式对抗网络、递归神经网络这三种深度学习方法并给出了相关实例代码,最后本书介绍了自然语言处理、强化学习两方面的内容。 |
目录 |
[套装书具体书目] 8060194 - Keras深度学习实战 - 9787111626275 - 机械工业出版社 - 定价 69 8080976 - 基于Spark的下一代机器学习:XGBoost、LightGBM、Spark NLP与Keras分布式深度学习实例 - 9787111681250 - 机械工业出版社 - 定价 99 ---------------------------8080976 - 基于Spark的下一代机器学习:XGBoost、LightGBM、Spark NLP与Keras分布式深度学习实例--------------------------- 前言 致谢 关于作者 关于技术审校人员 第1章 机器学习介绍 1 1.1 人工智能和机器学习用例 2 1.1.1 零售业 2 1.1.2 交通运输 3 1.1.3 金融服务 3 1.1.4 医疗保健和生物技术 3 1.1.5 制造业 3 1.1.6 政府部门 4 1.2 机器学习与数据 4 1.3 机器学习方法 6 1.3.1 有监督学习 6 1.3.2 无监督学习 6 1.3.3 半监督学习 6 1.3.4 强化学习 6 1.4 深度学习 7 1.5 神经网络 7 1.6 卷积神经网络 7 1.7 特征工程 7 1.7.1 特征选择 8 1.7.2 特征重要性 9 1.7.3 特征提取 9 1.7.4 特征构建 9 1.8 模型评估 10 1.8.1 准确率 10 1.8.2 精度 10 1.8.3 召回率 11 1.8.4 F1度量 11 1.8.5 AUROC 11 1.9 过拟合与欠拟合 12 1.10 模型选择 12 1.11 总结 12 1.12 参考资料 13 第2章 Spark和Spark MLlib 介绍 16 2.1 概述 16 2.2 架构 17 2.3 执行Spark应用程序 19 2.3.1 集群模式 19 2.3.2 客户端模式 19 2.4 spark-shell介绍 19 2.4.1 SparkSession 20 2.4.2 弹性分布式数据集 21 2.5 Spark SQL、DataSet和DataFrame的 API 29 2.6 Spark数据源 31 2.6.1 CSV 31 2.6.2 XML 31 2.6.3 JSON 32 2.6.4 关系数据库和MPP数据库 33 2.6.5 Parquet 36 2.6.6 HBase 36 2.6.7 Amazon S3 41 2.6.8 Solr 42 2.6.9 Microsoft Excel 43 2.6.10 SFTP 44 2.7 Spark MLlib介绍 44 2.8 ML管道 46 2.8.1 管道 47 2.8.2 转换器 47 2.8.3 估计器 47 2.8.4 ParamGridBuilder 47 2.8.5 CrossValidator 47 2.8.6 评估器 47 2.9 特征提取、转换和选择 48 2.9.1 StringIndexer 48 2.9.2 Tokenizer 49 2.9.3 VectorAssembler 50 2.9.4 StandardScaler 51 2.9.5 StopWordsRemover 52 2.9.6 n-gram 52 2.9.7 OneHotEncoderEstimator 53 2.9.8 SQLTransformer 54 2.9.9 词频–逆文档频率 55 2.9.10 主成分分析 57 2.9.11 ChiSqSelector 57 2.9.12 Correlation 58 2.10 评估指标 60 2.10.1 AUROC 60 2.10.2 F1度量 61 2.10.3 均方根误差 61 2.11 模型持久化 62 2.12 Spark MLlib示例 62 2.13 图处理 66 2.14 超越Spark MLlib:第三方机器学习集成 66 2.15 利用Alluxio优化Spark和Spark MLlib 66 2.16 为什么使用Alluxio 68 2.16.1 显著提高大数据处理性能和可扩展性 68 2.16.2 多个框架和应用程序可以以读写内存的速度共享数据 69 2.17 在应用程序终止或失败时提供高可用性和持久性 71 2.18 优化总体内存使用并最小化垃圾收集 74 2.19 降低硬件要求 74 2.20 Apache Spark和Alluxio 75 2.21 总结 75 2.22 参考资料 76 第3章 有监督学习 79 3.1 分类 79 3.1.1 分类类型 79 3.1.2 Spark MLlib分类算法 80 3.1.3 第三方分类和回归算法 85 3.1.4 使用逻辑回归算法的多类别分类 86 3.1.5 使用随机森林算法进行流失预测 95 3.1.6 使用XGBoost4J-Spark的极端梯度提升算法 108 3.1.7 LightGBM:来自微软的快速梯度提升算法 118 3.1.8 使用朴素贝叶斯进行情感分析 127 3.2 回归 133 3.2.1 简单线性回归 134 3.2.2 使用XGBoost4J-Spark进行多元回归分析 137 3.2.3 使用LightGBM进行多元回归分析 143 3.3 总结 148 3.4 参考资料 149 第4章 无监督学习 154 4.1 k-means聚类算法 154 4.2 使用隐含狄利克雷分布进行主题建模 162 4.2.1 Stanford CoreNLP 163 4.2.2 John Snow实验室的Spark NLP 164 4.2.3 示例 170 4.3 使用孤立森林进行异常检测 182 4.3.1 参数 185 4.3.2 示例 186 4.4 使用主成分分析进行降维 188 4.5 总结 197 4.6 参考资料 197 第5章 推荐 200 5.1 推荐引擎的种类 201 5.1.1 使用交替最小二乘法的协同过滤 201 5.1.2 参数 203 5.1.3 示例 203 5.2 使用FP增长进行购物篮分析 209 5.2.1 示例 210 5.2.2 基于内容的过滤 217 5.3 总结 218 5.4 参考资料 218 第6章 图分析 221 6.1 图介绍 221 6.1.1 无向图 221 6.1.2 有向图 222 6.1.3 有向多重图 222 6.1.4 属性图 223 6.2 图分析用例 223 6.2.1 欺诈检测和反洗钱 224 6.2.2 数据治理和法规遵从性 224 6.2.3 风险管理 224 6.2.4 运输 225 6.2.5 社交网络 225 6.2.6 网络基础设施管理 225 6.3 GraphX简介 225 6.3.1 Graph 225 6.3.2 VertexRDD 226 6.3.3 Edge 226 6.3.4 EdgeRDD 226 6.3.5 EdgeTriplet 226 6.3.6 EdgeContext 226 6.3.7 GraphX 示例 226 6.3.8 图算法 229 6.3.9 GraphFrames 232 6.4 总结 235 6.5 参考资料 236 第7章 深度学习 238 7.1 神经网络 239 7.2 神经网络的简短历史 240 7.3 卷积神经网络 242 7.4 深度学习框架 247 7.4.1 TensorFlow 247 7.4.2 Theano 247 7.4.3 PyTorch 247 7.4.4 DeepLearning4J 247 7.4.5 CNTK 248 7.4.6 Keras 248 7.4.7 使用Keras进行深度学习 248 7.5 Spark分布式深度学习 258 7.5.1 模型并行与数据并行 258 7.5.2 Spark分布式深度学习框架 259 7.6 Elephas:使用Keras和Spark进行分布式深度学习 261 7.7 Dist-Keras 270 7.7.1 使用基于Keras和Spark的Dist-Keras来识别MNIST中的手写数字 271 7.7.2 猫和狗的图像分类 276 7.8 总结 283 7.9 参考资料 283 ---------------------------8060194 - Keras深度学习实战--------------------------- 译者序 审校者简介 前言 第1章 Keras安装 1 1.1 引言 1 1.2 在Ubuntu 16.04上安装Keras 1 1.2.1 准备工作 2 1.2.2 怎么做 2 1.3 在Docker镜像中使用Jupyter Notebook安装Keras 7 1.3.1 准备工作 7 1.3.2 怎么做 7 1.4 在已激活GPU的Ubuntu 16.04上安装Keras 9 1.4.1 准备工作 9 1.4.2 怎么做 10 第2章 Keras数据集和模型 13 2.1 引言 13 2.2 CIFAR-10数据集 13 2.3 CIFAR-100数据集 15 2.4 MNIST数据集 17 2.5 从CSV文件加载数据 18 2.6 Keras模型入门 19 2.6.1 模型的剖析 19 2.6.2 模型类型 19 2.7 序贯模型 20 2.8 共享层模型 27 2.8.1 共享输入层简介 27 2.8.2 怎么做 27 2.9 Keras函数API 29 2.9.1 怎么做 29 2.9.2 示例的输出 31 2.10 Keras函数API——链接层 31 2.11 使用Keras函数API进行图像分类 32 第3章 数据预处理、优化和可视化 36 3.1 图像数据特征标准化 36 3.1.1 准备工作 36 3.1.2 怎么做 37 3.2 序列填充 39 3.2.1 准备工作 39 3.2.2 怎么做 39 3.3 模型可视化 41 3.3.1 准备工作 41 3.3.2 怎么做 41 3.4 优化 43 3.5 示例通用代码 43 3.6 随机梯度下降优化法 44 3.6.1 准备工作 44 3.6.2 怎么做 44 3.7 Adam优化算法 47 3.7.1 准备工作 47 3.7.2 怎么做 47 3.8 AdaDelta优化算法 50 3.8.1 准备工作 51 3.8.2 怎么做 51 3.9 使用RMSProp进行优化 54 3.9.1 准备工作 54 3.9.2 怎么做 54 第4章 使用不同的Keras层实现分类 58 4.1 引言 58 4.2 乳腺癌分类 58 4.3 垃圾信息检测分类 66 第5章 卷积神经网络的实现 73 5.1 引言 73 5.2 宫颈癌分类 73 5.2.1 准备工作 74 5.2.2 怎么做 74 5.3 数字识别 84 5.3.1 准备工作 84 5.3.2 怎么做 85 第6章 生成式对抗网络 89 6.1 引言 89 6.2 基本的生成式对抗网络 90 6.2.1 准备工作 91 6.2.2 怎么做 91 6.3 边界搜索生成式对抗网络 98 6.3.1 准备工作 99 6.3.2 怎么做 100 6.4 深度卷积生成式对抗网络 106 6.4.1 准备工作 107 6.4.2 怎么做 108 第7章 递归神经网络 116 7.1 引言 116 7.2 用于时间序列数据的简单RNN 117 7.2.1 准备工作 118 7.2.2 怎么做 119 7.3 时间序列数据的LSTM网络 128 7.3.1 LSTM网络 128 7.3.2 LSTM记忆示例 129 7.3.3 准备工作 129 7.3.4 怎么做 129 7.4 使用LSTM进行时间序列预测 133 7.4.1 准备工作 134 7.4.2 怎么做 135 7.5 基于LSTM的等长输出序列到序列学习 143 7.5.1 准备工作 143 7.5.2 怎么做 144 第8章 使用Keras模型进行自然语言处理 150 8.1 引言 150 8.2 词嵌入 150 8.2.1 准备工作 151 8.2.2 怎么做 151 8.3 情感分析 157 8.3.1 准备工作 157 8.3.2 怎么做 159 8.3.3 完整代码清单 162 第9章 基于Keras模型的文本摘要 164 9.1 引言 164 9.2 评论的文本摘要 164 9.2.1 怎么做 165 9.2.2 参考资料 172 第10章 强化学习 173 10.1 引言 173 10.2 使用Keras进行《CartPole》游戏 174 10.3 使用竞争DQN算法进行《CartPole》游戏 181 10.3.1 准备工作 183 10.3.2 怎么做 187 |