| 作者 |
| 马海平 于俊 吕昕 向海 |
| 丛书名 |
| 大数据技术丛书 |
| 出版社 |
| 机械工业出版社 |
| ISBN |
| 9787111608103 |
| 简要 |
| 6大算法模型构建,5大场景(异常检测、用户画像、点击率预估、企业征信、智慧交通)应用,从内涵认知到实践技能,全面提升 |
| 简介 |
| 内容简介书籍计算机书籍 全书一共分三大部分: 基础篇(1-2章)对Spark机器学习进行概述、并通过Spark机器学习开始进行数据分析; 算法篇(3-8章)针对分类、聚类、回归、协同过滤、关联规则、降维等算法进行详细讲解,并进行案例支持; 综合案例篇(9-12章)重点通过异常检测、用户画像、广告点击率预估、智慧交通大数据4个综合场景,详细讲解基于Spark机器学习的综合应用。 |
| 目录 |
| 前 言 第一篇 基础篇 第1章 机器学习概述 2 1.1 机器学习概述 2 1.1.1 理解大数据 2 1.1.2 机器学习发展过程 4 1.1.3 大数据生态环境 5 1.2 机器学习算法 6 1.2.1 传统机器学习 6 1.2.2 深度学习 8 1.2.3 其他机器学习 8 1.3 机器学习分类 9 1.3.1 监督学习 9 1.3.2 无监督学习 10 1.3.3 半监督学习 10 1.3.4 强化学习 10 1.4 机器学习综合应用 11 1.4.1 异常检测 12 1.4.2 用户画像 12 1.4.3 广告点击率预估 12 1.4.4 企业征信大数据应用 12 1.4.5 智慧交通大数据应用 13 1.5 本章小结 13 第2章 数据分析流程和方法 14 2.1 数据分析概述 14 2.2 数据分析流程 15 2.2.1 业务调研 16 2.2.2 明确目标 16 2.2.3 数据准备 16 2.2.4 特征处理 17 2.2.5 模型训练与评估 21 2.2.6 输出结论 23 2.3 数据分析的基本方法 24 2.3.1 汇总统计 24 2.3.2 相关性分析 25 2.3.3 分层抽样 26 2.3.4 假设检验 26 2.4 简单的数据分析实践 27 2.4.1 环境准备 27 2.4.2 准备数据 28 2.4.3 数据分析 29 2.5 本章小结 30 第二篇 算法篇 第3章 构建分类模型 32 3.1 分类模型概述 32 3.2 分类模型算法 34 3.2.1 逻辑回归 34 3.2.2 朴素贝叶斯模型 36 3.2.3 SVM模型 37 3.2.4 决策树模型 39 3.2.5 K-近邻 40 3.3 分类效果评估 40 3.3.1 正确率 41 3.3.2 准确率、召回率和F1值 41 3.3.3 ROC和AUC 42 3.4 App数据的分类实现 44 3.4.1 选择分类器 44 3.4.2 准备数据 45 3.4.3 训练模型 46 3.4.4 模型性能评估 48 3.4.5 模型参数调优 49 3.5 其他分类模型 50 3.5.1 随机森林 50 3.5.2 梯度提升树 51 3.5.3 因式分解机模型 51 3.6 本章小结 52 第4章 构建聚类模型 53 4.1 聚类概述 53 4.2 聚类模型 54 4.2.1 KMeans聚类 54 4.2.2 DBSCAN聚类 55 4.2.3 主题聚类 56 4.3 聚类效果评价 58 4.3.1 集中平方误差和 58 4.3.2 Purity评价法 59 4.4 使用KMeans对鸢尾花卉数据集聚类 59 4.4.1 准备数据 59 4.4.2 特征处理 60 4.4.3 聚类分析 60 4.4.4 模型性能评估 62 4.5 使用DBSCAN对GPS数据进行聚类 62 4.5.1 准备数据 63 4.5.2 特征处理 64 4.5.3 聚类分析 64 4.5.4 模型参数调优 65 4.6 其他模型 66 4.6.1 层次聚类 66 4.6.2 基于图的聚类 67 4.6.3 混合聚类模型 67 4.7 本章小结 68 第5章 构建回归模型 69 5.1 常用回归模型 69 5.1.1 线性回归模型 70 5.1.2 回归树模型 70 5.1.3 其他回归模型 71 5.2 评估指标 73 5.3 回归模型优化 74 5.3.1 特征选择 74 5.3.2 特征变换 74 5.4 构建UCI裙子销售数据回归模型 75 5.4.1 准备数据 75 5.4.2 训练模型 78 5.4.3 评估效果 79 5.4.4 模型优化 79 5.5 其他回归模型案例 80 5.5.1 GDP影响因素分析 81 5.5.2 大气污染分析 81 5.5.3 大数据比赛中的回归问题 81 5.6 本章小结 82 第6章 构建关联规则模型 83 6.1 关联规则概述 83 6.2 常用关联规则算法 84 6.2.1 Apriori算法 84 6.2.2 FP-Growth算法 85 6.3 效果评估和优化 86 6.3.1 效果评估 86 6.3.2 效果优化 87 6.4 使用FP-Growth对豆瓣评分数据进行挖掘 88 6.4.1 准备数据 89 6.4.2 训练模型 89 6.4.3 观察规则 91 6.4.4 参数调优 91 6.4.5 使用算法 92 6.5 其他应用场景 94 6.6 本章小结 96 第7章 协同过滤 97 7.1 协同过滤概述 97 7.2 常用的协同过滤算法 98 7.2.1 基于用户的协同过滤 99 7.2.2 基于物品的协同过滤 100 7.2.3 矩阵分解技术 101 7.2.4 推荐算法的选择 102 7.3 评估标准 103 7.3.1 准确率 103 7.3.2 覆盖率 103 7.3.3 多样性 104 7.3.4 其他指标 104 7.4 使用电影评分数据进行协同过滤实践 104 7.4.1 准备数据 105 7.4.2 训练模型 106 7.4.3 测试模型 109 7.4.4 使用ALS结果 111 7.5 本章小结 112 第8章 数据降维 113 8.1 降维概述 113 8.2 常用降维算法 114 8.2.1 主成分分析 114 8.2.2 奇异值分解 116 8.2.3 广义降维 117 8.2.4 文本降维 118 8.3 降维评估标准 121 8.4 使用PCA对Digits数据集进行降维 122 8.4.1 准备数据 122 8.4.2 训练模型 123 8.4.3 分析降维结果 124 8.5 其他降维方法 124 8.5.1 线性判别分析 124 8.5.2 局部线性嵌入 125 8.5.3 拉普拉斯特征映射 125 8.6 本章小结 126 第三篇 综合应用篇 第9章 异常检测 128 9.1 异常概述 128 9.1.1 异常的产生 129 9.1.2 异常检测的分类 129 9.2 异常检测方法 130 9.2.1 基于模型的方法 130 9.2.2 基于邻近度的方法 131 9.2.3 基于密度的方法 132 9.2.4 基于聚类的方法 133 9.3 异常检测系统 133 9.3.1 异常检测过程 133 9.3.2 异常检测步骤 134 9.3.3 特征选取和设计 135 9.4 应用场景 137 9.4.1 入侵检测 137 9.4.2 欺诈检测 138 9.4.3 社交假新闻 140 9.4.4 医疗和公共卫生 141 9.5 新闻App数据异常检测实践 141 9.5.1 准备数据 141 9.5.2 数据预处理 142 9.5.3 异常检测 142 9.6 本章小结 144 第10章 用户画像 145 10.1 用户画像概述 145 10.1.1 什么是用户画像 145 10.1.2 为什么需要用户画像 146 10.2 用户画像流程 147 10.2.1 整体流程 147 10.2.2 标签体系 148 10.3 构建用户画像 150 10.3.1 人口属性画像 150 10.3.2 兴趣画像 152 10.3.3 地理位置画像 155 10.4 用户画像评估和使用 155 10.4.1 效果评估 156 10.4.2 用户画像使用 157 10.5 新闻App用户画像实践 158 10.5.1 事实标签构建 158 10.5.2 兴趣标签构建 159 10.6 本章小结 161 第11章 广告点击率预估 162 11.1 点击率预估概述 162 11.1.1 互联网广告的发展 163 11.1.2 互联网广告交易架构 163 11.1.3 点击率预估应用 165 11.2 点击率预估技术 166 11.2.1 数据收集 166 11.2.2 特征构建 167 11.2.3 特征处理和选择 169 11.2.4 模型训练 170 11.3 模型效果评估 172 11.3.1 模型指标评估 172 11.3.2 线上流量评估 172 11.4 新闻App点击率预估实践 173 11.4.1 特征提取 173 11.4.2 模型训练 174 11.4.3 广告CTR模型扩展 175 11.5 本章小结 177 第12章 企业征信大数据应用 178 12.1 征信概述 178 12.1.1 征信组成 179 12.1.2 传统征信 180 12.1.3 大数据征信 180 12.2 企业征信大数据平台 181 12.2.1 大数据征信平台架构 181 12.2.2 企业征信服务流程 182 12.2.3 企业征信数据源 182 12.2.4 企业征信画像库 183 12.2.5 征信评分模型 185 12.3 企业征信大数据应用 186 12.3.1 企业信用报告 186 12.3.2 企业风控管理 187 12.4 企业法人资产建模实践 188 12.4.1 建模流程 188 12.4.2 数据准备 190 12.4.3 模型工程实现 191 12.5 本章小结 194 第13章 智慧交通大数据应用 195 13.1 智慧交通大数据概述 195 13.2 人群生活模式划分 196 13.2.1 数据介绍 196 13.2.2 数据预处理 196 13.2.3 特征构建 197 13.2.4 生活模式挖掘 200 13.2.5 划分结果分析 202 13.3 道路拥堵模式聚类 204 13.3.1 数据介绍 204 13.3.2 数据预处理 205 13.3.3 特征构建 206 13.3.4 拥堵模式挖掘 207 13.4 本章小结 210 |