作者 |
布奇·昆托 哈维尔·卢拉辛 凯文·郭 埃德加·鲁伊斯 |
丛书名 |
智能系统与技术丛书 |
出版社 |
机械工业出版社 |
ISBN |
9782105211720 |
简要 |
简介 |
内容简介书籍计算机书籍 ---------------------------8080976 - 基于Spark的下一代机器学习:XGBoost、LightGBM、Spark NLP与Keras分布式深度学习实例--------------------------- 本书先简单介绍了Spark和Spark MLlib,然后介绍标准Spark MLlib库之外的更强大的第三方机器学习算法和库。通过阅读本书,你将能够通过几十个实际的例子和深刻的解释,将所学到的知识应用到真实世界的用例。 ---------------------------8071553 - 大规模数据分析和建模:基于Spark与R--------------------------- 这本书的目的是帮助所有人通过R使用Apache Spark。第1章~第5章,简单地介绍了如何大规模执行数据科学和机器学习项目。第6~9章介绍了使用Spark进行集群计算中令人激动的基本概念。第10章~第13章涵盖一些高级主题,包括分布式R、Streaming和社区贡献等。 |
目录 |
[套装书具体书目] 8071553 - 大规模数据分析和建模:基于Spark与R - 9787111661016 - 机械工业出版社 - 定价 89 8080976 - 基于Spark的下一代机器学习:XGBoost、LightGBM、Spark NLP与Keras分布式深度学习实例 - 9787111681250 - 机械工业出版社 - 定价 99 ---------------------------8080976 - 基于Spark的下一代机器学习:XGBoost、LightGBM、Spark NLP与Keras分布式深度学习实例--------------------------- 前言 致谢 关于作者 关于技术审校人员 第1章 机器学习介绍 1 1.1 人工智能和机器学习用例 2 1.1.1 零售业 2 1.1.2 交通运输 3 1.1.3 金融服务 3 1.1.4 医疗保健和生物技术 3 1.1.5 制造业 3 1.1.6 政府部门 4 1.2 机器学习与数据 4 1.3 机器学习方法 6 1.3.1 有监督学习 6 1.3.2 无监督学习 6 1.3.3 半监督学习 6 1.3.4 强化学习 6 1.4 深度学习 7 1.5 神经网络 7 1.6 卷积神经网络 7 1.7 特征工程 7 1.7.1 特征选择 8 1.7.2 特征重要性 9 1.7.3 特征提取 9 1.7.4 特征构建 9 1.8 模型评估 10 1.8.1 准确率 10 1.8.2 精度 10 1.8.3 召回率 11 1.8.4 F1度量 11 1.8.5 AUROC 11 1.9 过拟合与欠拟合 12 1.10 模型选择 12 1.11 总结 12 1.12 参考资料 13 第2章 Spark和Spark MLlib 介绍 16 2.1 概述 16 2.2 架构 17 2.3 执行Spark应用程序 19 2.3.1 集群模式 19 2.3.2 客户端模式 19 2.4 spark-shell介绍 19 2.4.1 SparkSession 20 2.4.2 弹性分布式数据集 21 2.5 Spark SQL、DataSet和DataFrame的 API 29 2.6 Spark数据源 31 2.6.1 CSV 31 2.6.2 XML 31 2.6.3 JSON 32 2.6.4 关系数据库和MPP数据库 33 2.6.5 Parquet 36 2.6.6 HBase 36 2.6.7 Amazon S3 41 2.6.8 Solr 42 2.6.9 Microsoft Excel 43 2.6.10 SFTP 44 2.7 Spark MLlib介绍 44 2.8 ML管道 46 2.8.1 管道 47 2.8.2 转换器 47 2.8.3 估计器 47 2.8.4 ParamGridBuilder 47 2.8.5 CrossValidator 47 2.8.6 评估器 47 2.9 特征提取、转换和选择 48 2.9.1 StringIndexer 48 2.9.2 Tokenizer 49 2.9.3 VectorAssembler 50 2.9.4 StandardScaler 51 2.9.5 StopWordsRemover 52 2.9.6 n-gram 52 2.9.7 OneHotEncoderEstimator 53 2.9.8 SQLTransformer 54 2.9.9 词频–逆文档频率 55 2.9.10 主成分分析 57 2.9.11 ChiSqSelector 57 2.9.12 Correlation 58 2.10 评估指标 60 2.10.1 AUROC 60 2.10.2 F1度量 61 2.10.3 均方根误差 61 2.11 模型持久化 62 2.12 Spark MLlib示例 62 2.13 图处理 66 2.14 超越Spark MLlib:第三方机器学习集成 66 2.15 利用Alluxio优化Spark和Spark MLlib 66 2.16 为什么使用Alluxio 68 2.16.1 显著提高大数据处理性能和可扩展性 68 2.16.2 多个框架和应用程序可以以读写内存的速度共享数据 69 2.17 在应用程序终止或失败时提供高可用性和持久性 71 2.18 优化总体内存使用并最小化垃圾收集 74 2.19 降低硬件要求 74 2.20 Apache Spark和Alluxio 75 2.21 总结 75 2.22 参考资料 76 第3章 有监督学习 79 3.1 分类 79 3.1.1 分类类型 79 3.1.2 Spark MLlib分类算法 80 3.1.3 第三方分类和回归算法 85 3.1.4 使用逻辑回归算法的多类别分类 86 3.1.5 使用随机森林算法进行流失预测 95 3.1.6 使用XGBoost4J-Spark的极端梯度提升算法 108 3.1.7 LightGBM:来自微软的快速梯度提升算法 118 3.1.8 使用朴素贝叶斯进行情感分析 127 3.2 回归 133 3.2.1 简单线性回归 134 3.2.2 使用XGBoost4J-Spark进行多元回归分析 137 3.2.3 使用LightGBM进行多元回归分析 143 3.3 总结 148 3.4 参考资料 149 第4章 无监督学习 154 4.1 k-means聚类算法 154 4.2 使用隐含狄利克雷分布进行主题建模 162 4.2.1 Stanford CoreNLP 163 4.2.2 John Snow实验室的Spark NLP 164 4.2.3 示例 170 4.3 使用孤立森林进行异常检测 182 4.3.1 参数 185 4.3.2 示例 186 4.4 使用主成分分析进行降维 188 4.5 总结 197 4.6 参考资料 197 第5章 推荐 200 5.1 推荐引擎的种类 201 5.1.1 使用交替最小二乘法的协同过滤 201 5.1.2 参数 203 5.1.3 示例 203 5.2 使用FP增长进行购物篮分析 209 5.2.1 示例 210 5.2.2 基于内容的过滤 217 5.3 总结 218 5.4 参考资料 218 第6章 图分析 221 6.1 图介绍 221 6.1.1 无向图 221 6.1.2 有向图 222 6.1.3 有向多重图 222 6.1.4 属性图 223 6.2 图分析用例 223 6.2.1 欺诈检测和反洗钱 224 6.2.2 数据治理和法规遵从性 224 6.2.3 风险管理 224 6.2.4 运输 225 6.2.5 社交网络 225 6.2.6 网络基础设施管理 225 6.3 GraphX简介 225 6.3.1 Graph 225 6.3.2 VertexRDD 226 6.3.3 Edge 226 6.3.4 EdgeRDD 226 6.3.5 EdgeTriplet 226 6.3.6 EdgeContext 226 6.3.7 GraphX 示例 226 6.3.8 图算法 229 6.3.9 GraphFrames 232 6.4 总结 235 6.5 参考资料 236 第7章 深度学习 238 7.1 神经网络 239 7.2 神经网络的简短历史 240 7.3 卷积神经网络 242 7.4 深度学习框架 247 7.4.1 TensorFlow 247 7.4.2 Theano 247 7.4.3 PyTorch 247 7.4.4 DeepLearning4J 247 7.4.5 CNTK 248 7.4.6 Keras 248 7.4.7 使用Keras进行深度学习 248 7.5 Spark分布式深度学习 258 7.5.1 模型并行与数据并行 258 7.5.2 Spark分布式深度学习框架 259 7.6 Elephas:使用Keras和Spark进行分布式深度学习 261 7.7 Dist-Keras 270 7.7.1 使用基于Keras和Spark的Dist-Keras来识别MNIST中的手写数字 271 7.7.2 猫和狗的图像分类 276 7.8 总结 283 7.9 参考资料 283 ---------------------------8071553 - 大规模数据分析和建模:基于Spark与R--------------------------- 序言 1 前言 3 第1章 引言 9 1.1 概述 10 1.2 Hadoop 10 1.3 Spark 12 1.4 R 16 1.5 sparklyr 19 1.6 小结 20 第2章 开始 21 2.1 概述 21 2.2 预备操作 22 2.2.1 安装sparklyr 23 2.2.2 安装Spark 23 2.3 连接 24 2.4 使用Spark 25 2.4.1 网络接口 25 2.4.2 分析 28 2.4.3 建模 28 2.4.4 数据 30 2.4.5 扩展 30 2.4.6 分布式R 31 2.4.7 流式数据 31 2.4.8 日志 32 2.5 断开连接 33 2.6 使用RStudio 33 2.7 资源 35 2.8 小结 36 第3章 分析 37 3.1 概述 37 3.2 数据导入 40 3.3 数据整理 41 3.3.1 内置函数 42 3.3.2 相关性 43 3.4 可视化 45 3.4.1 使用ggplot2 46 3.4.2 使用dbplot 47 3.5 建模 49 3.6 沟通 51 3.7 小结 54 第4章 建模 56 4.1 概述 56 4.2 探索性数据分析 58 4.3 特征工程 65 4.4 监督式学习 68 4.4.1 广义线性回归 72 4.4.2 其他模型 73 4.5 非监督式学习 73 4.5.1 数据准备 74 4.5.2 主题建模 75 4.6 小结 77 第5章 管道操作 78 5.1 概述 78 5.2 创建工作 80 5.3 用例 81 5.4 操作模式 83 5.5 交互性 84 5.6 部署 86 5.6.1 批打分 87 5.6.2 实时打分 88 5.7 小结 90 第6章 集群 92 6.1 概述 92 6.2 本地化 94 6.2.1 管理器 94 6.2.2 发行版 98 6.3 云端 100 6.3.1 亚马逊 101 6.3.2 Databricks 102 6.3.3 谷歌 103 6.3.4 IBM 105 6.3.5 微软 106 6.3.6 Qubole 107 6.4 Kubernetes 107 6.5 工具 108 6.5.1 RStudio 108 6.5.2 Jupyter 109 6.5.3 Livy 110 6.6 小结 111 第7章 连接 112 7.1 概述 112 7.1.1 边缘节点 114 7.1.2 Spark主 114 7.2 本地模式 115 7.3 单机模式 116 7.4 YARN 116 7.4.1 YARN客户端 117 7.4.2 YARN集群 117 7.5 Livy 118 7.6 Mesos 120 7.7 Kubernetes 121 7.8 云模式 121 7.9 批量模式 122 7.10 工具 123 7.11 多次连接 123 7.12 故障排除 124 7.12.1 记录日志 124 7.12.2 Spark Submit 124 7.12.3 Windows 126 7.13 小结 126 第8章 数据 127 8.1 概述 127 8.2 读取数据 129 8.2.1 路径 129 8.2.2 模式 130 8.2.3 内存 131 8.2.4 列 132 8.3 写入数据 133 8.4 复制数据 134 8.5 文件格式 135 8.5.1 CSV 136 8.5.2 JSON 137 8.5.3 Parquet 138 8.5.4 其他 139 8.6 文件系统 140 8.7 存储系统 140 8.7.1 Hive 141 8.7.2 Cassandra 142 8.7.3 JDBC 142 8.8 小结 143 第9章 调试 144 9.1 概述 144 9.1.1 计算图 146 9.1.2 时间线 148 9.2 配置 148 9.2.1 连接设置 150 9.2.2 提交设置 151 9.2.3 运行时设置 152 9.2.4 sparklyr设置 153 9.3 分区 156 9.3.1 隐式分区 156 9.3.2 显式分区 157 9.4 缓存 158 9.4.1 检查点 159 9.4.2 内存 159 9.5 重洗 160 9.6 序列化 161 9.7 配置文件 161 9.8 小结 162 第10章 扩展 163 10.1 概述 163 10.2 H2O 165 10.3 图模型 169 10.4 XGBoost 173 10.5 深度学习 176 10.6 基因组学 179 10.7 空间数据 181 10.8 故障排除 183 10.9 小结 183 第11章 分布式R 185 11.1 概述 185 11.2 用例 187 11.2.1 定制解析器 188 11.2.2 分区建模 189 11.2.3 网格搜索 191 11.2.4 Web API 192 11.2.5 模拟 193 11.3 分区 194 11.4 分组 195 11.5 列 196 11.6 context参数 197 11.7 函数 198 11.8 程序包 199 11.9 集群需求 200 11.9.1 安装R 200 11.9.2 Apache Arrow 201 11.10 故障排除 203 11.10.1 工作节点日志 204 11.10.2 解决超时 205 11.10.3 检查分区 206 11.10.4 调试工作节点 206 11.11 小结 207 第12章 数据流 208 12.1 概述 208 12.2 转换 211 12.2.1 分析 212 12.2.2 建模 213 12.2.3 管道 214 12.2.4 分布式R 215 12.3 Kafka 216 12.4 Shiny 218 12.5 小结 220 第13章 社区贡献 221 13.1 概述 221 13.2 Spark API 223 13.3 Spark扩展 224 13.4 使用Scala代码 226 13.5 小结 228 附录A 补充参考代码 229 |