作者 |
蒋盛益 |
丛书名 |
出版社 |
电子工业出版社 |
ISBN |
9787121400124 |
简要 |
简介 |
内容简介书籍教材书店 本书由认识篇、技术篇和案例篇三部分组成,以商业领域中的问题为背景,主要讲解数据挖掘技术的应用。认识篇介绍数据挖掘的各种技术和数据挖掘建模方法,可使读者了解数据挖掘技术在商业领域中的应用概貌;技术篇介绍数据挖掘中的聚类分析、分类分析、关联规则分析、离群点检测、回归分析等方法;案例篇介绍实际领域应用较多的RFM分析、社会网络分析和文本挖掘,展示数据挖掘在不同领域中的应用案例,使读者理解如何应用数据挖掘技术解决商业领域中的问题。 本书可作为经济、管理类等相关专业学生学习数据挖掘技术的教材或参考书,也可作为计算机相关专业学生学习数据挖掘技术的参考书,还可作为企事业单位管理者、数据分析人员、市场营销人员、研究与开发人员的参考资料。 |
目录 |
上篇 认识篇 第1章 绪论 3 1.1 引例 3 1.2 数据挖掘简介 5 1.2.1 数据挖掘技术的使用背景 5 1.2.2 数据挖掘的概念 7 1.2.3 数据挖掘任务 7 1.2.4 数据挖掘过程 9 1.2.5 数据挖掘技术的前景 9 1.2.6 数据挖掘十大经典算法 11 1.3 数据挖掘在商业领域中的应用 12 1.3.1 客户关系管理 13 1.3.2 市场营销 15 1.3.3 个性化推荐与个性化服务 17 1.3.4 信用评估与欺诈检测 19 1.3.5 供应链库存管理中的需求预测 21 1.3.6 人力资源管理 22 1.4 数据挖掘与隐私保护 23 1.5 数据挖掘工具及其选择 25 本章小结 25 习题1 26 案例分析:聚类城镇 26 第2章 数据挖掘建模方法 28 2.1 数据挖掘建模概述 28 2.2 业务理解 31 2.3 数据理解 31 2.4 数据准备 32 2.5 建模 35 2.5.1 成功建立预测模型的注意事项 35 2.5.2 如何建立有效的预测模型 37 2.6 评估 39 2.7 部署 40 2.8 辛普森悖论 41 本章小结 42 习题2 43 案例分析 43 中篇 技术篇 第3章 数据准备 49 3.1 数据探索 50 3.1.1 描述性统计分析 51 3.1.2 数据可视化 54 3.2 数据清理 55 3.3 数据集成 58 3.4 数据变换 59 3.5 数据归约 64 3.6 Clementine简介 67 3.6.1 Clementine数据流操作 68 3.6.2 输入、输出节点 71 3.6.3 数据可视化节点 78 3.6.4 数据预处理节点 82 3.7 综合案例:电信客户通话模式分析 86 本章小结 92 习题3 92 案例分析 93 第4章 聚类分析 95 4.1 聚类分析概述 95 4.2 相似性度量 96 4.2.1 数据及数据类型 96 4.2.2 属性之间的相似性度量 98 4.2.3 对象之间的相似性度量 99 4.3 k-Means算法及其改进 104 4.3.1 k -Means算法 104 4.3.2 k-Means算法的拓展 106 4.4 DBSCAN聚类算法 112 4.5 一趟聚类算法 115 4.5.1 算法描述 115 4.5.2 聚类阈值的选择策略 115 4.5.3 一趟聚类算法的应用 117 4.6 层次聚类算法 118 4.6.1 概述 118 4.6.2 二分k -Means算法 119 4.6.3 BIRCH算法 119 4.6.4 两步聚类算法 121 4.7 SOM算法 123 4.7.1 SOM算法中网络的拓扑结构 124 4.7.2 SOM算法的聚类原理 125 4.8 聚类算法评价 126 4.8.1 有监督度量 126 4.8.2 无监督度量 127 4.9 Clementine中相关节点的介绍 128 4.9.1 k -Means节点 128 4.9.2 两步节点 130 4.9.3 Kohonen节点 130 4.10 综合案例:超市客户细分 132 本章小结 134 习题4 135 案例分析 135 第5章 分类分析 137 5.1 分类概述 138 5.2 决策树分类方法 138 5.2.1 决策树的基本概念 138 5.2.2 决策树的构建 140 5.2.3 Hunt算法 144 5.2.4 C4.5分类算法 145 5.2.5 CART算法 148 5.2.6 C4.5与CART算法的主要区别 156 5.2.7 决策树分类算法的特点 156 5.3 贝叶斯分类方法 156 5.3.1 贝叶斯定理 156 5.3.2 朴素贝叶斯分类算法 157 5.3.3 零条件概率问题的处理 158 5.3.4 朴素贝叶斯算法的优缺点 159 5.3.5 贝叶斯信念网络 161 5.4 KNN 162 5.4.1 最近邻分类方法的基本概念 163 5.4.2 KNN算法的优缺点 163 5.4.3 KNN算法的扩展 163 5.5 集成分类方法 164 5.5.1 集成分类方法的过程描述 164 5.5.2 构建集成分类器的方法 165 5.5.3 随机森林 166 5.5.4 集成分类方法的优缺点 168 5.6 分类方法评价 168 5.6.1 分类模型性能评价指标 168 5.6.2 分类模型性能评价应注意的点 169 5.6.3 评估分类模型性能的方法 170 5.7 Clementine中相关节点的介绍 171 5.7.1 C5.0节点 171 5.7.2 CRT节点 173 5.7.3 贝叶斯节点 174 5.7.4 集成节点 177 5.7.5 分析节点 177 5.7.6 评估节点 179 5.8 综合案例 183 5.8.1 案例5-1:银行客户信用风险评估 183 5.8.2 案例5-2:离职员工预测 185 本章小结 188 习题5 188 案例分析 190 第6章 关联规则分析 191 6.1 关联规则分析概述 191 6.2 关联规则分析基础 192 6.2.1 基本概念 192 6.2.2 基础分析方法 193 6.3 Apriori算法 195 6.3.1 Apriori性质 195 6.3.2 产生频繁项集 196 6.3.3 频繁项集构造示例 197 6.3.4 产生关联规则 198 6.3.5 规则的评估标准 201 6.3.6 Apriori算法评价 203 6.4 FP-Growth算法 203 6.4.1 FP-Tree表示法 204 6.4.2 构建FP-Tree 204 6.4.3 发现频繁项集 207 6.5 关联规则扩展 208 6.5.1 关联规则分类 208 6.5.2 多层次关联规则 209 6.5.3 多维关联规则 210 6.5.4 定量关联规则 211 6.5.5 基于约束的关联规则 211 6.5.6 序列模式挖掘 211 6.6 Clementine中Apriori节点的介绍 212 6.7 综合案例 213 6.7.1 案例6-1:超市购物篮分析 213 6.7.2 案例6-2:移动业务关联分析 218 本章小结 225 习题6 226 案例分析 227 第7章 离群点检测 229 7.1 离群点概述 229 7.2 基于距离的离群点检测方法 231 7.3 基于相对密度的离群点检测方法 232 7.4 基于聚类的离群点检测方法 237 7.4.1 基于对象的离群因子检测方法 238 7.4.2 基于簇的离群因子检测方法 240 7.4.3 基于聚类的动态数据离群点检测 242 7.5 离群点检测方法的评估 243 7.6 Clementine中的异常节点 243 7.7 综合案例:信用卡欺诈检测 245 本章小结 246 习题7 246 案例分析 247 第8章 回归分析 248 8.1 回归分析概述 248 8.2 线性回归模型 249 8.2.1 多元线性回归模型的表示 249 8.2.2 多元线性回归模型的检验 250 8.3 非线性回归 252 8.4 逻辑回归 255 8.4.1 二元逻辑回归模型 255 8.4.2 逻辑回归模型的系数估计 256 8.4.3 逻辑回归模型系数的解释 257 8.4.4 显著性检验 257 8.4.5 回归方程的拟合优度检验 258 8.5 Clementine中相关节点介绍 263 8.5.1 线性回归节点 263 8.5.2 逻辑回归节点 264 8.6 综合案例:我国私人汽车拥有量的非线性回归 265 本章小结 268 习题8 268 案例分析 270 下篇 案例篇 第9章 RFM分析 275 9.1 RFM分析的基本原理 275 9.2 RFM模型的应用场景 276 9.3 Clementine中相关节点介绍 277 9.3.1 RFM汇总节点 277 9.3.2 RFM分析节点 278 9.4 综合案例 280 9.4.1 案例9-1:识别促销的目标客户 280 9.4.2 案例9-2:Charles读书俱乐部销售 285 9.4.3 案例9-3:销售数据分析 290 本章小结 294 第10章 社会网络分析 295 10.1 图论基础 295 10.2 社会网络分析概述 296 10.2.1 社会网络分析相关概念 297 10.2.2 中心性 297 10.2.3 权威性 299 10.2.4 网络密度 299 10.3 社区检测 300 10.3.1 社区检测方法简介 300 10.3.2 社区检测质量评价 301 10.4 社会网络分析软件 302 10.4.1 社会网络分析软件概述 302 10.4.2 Gephi简介 303 10.5 综合案例 306 10.5.1 案例10-1:基于社区检测的通信业客户细分 306 10.5.2 案例10-2:“一带一路”沿线国家间贸易数据分析 311 本章小结 318 第11章 文本挖掘 319 11.1 分词技术 319 11.1.1 分词挑战 319 11.1.2 分词方法 320 11.1.3 常见分词工具 321 11.2 文本向量化 322 11.2.1 向量空间模型 322 11.2.2 文本特征选择 323 11.3 文本聚类 324 11.3.1 文本相似度计算 324 11.3.2 文本聚类过程 325 11.4 文本分类 325 11.4.1 文本分类的概念 325 11.4.2 常用文本分类算法 326 11.4.3 常用基准语料与模型评估标准 327 11.5 文本情感分析 328 11.5.1 文本情感分析的概念 329 11.5.2 文本情感分析技术 329 11.5.3 文本情感分析的应用 330 11.6 相关软件 331 11.6.1 数据采集工具八爪鱼 331 11.6.2 可视化内容挖掘软件ROST CM6 336 11.7 综合案例:基于微博的用户特征识别 337 本章小结 342 第12章 数据挖掘在客户关系管理中的应用 343 12.1 客户关系管理 343 12.1.1 客户关系管理概述 343 12.1.2 客户价值分析 344 12.1.3 客户细分分析 345 12.1.4 市场营销 345 12.1.5 客户关系管理的实施流程 346 12.2 客户生命周期分析 347 12.3 综合案例 350 12.3.1 案例12-1:旅游公司销售 350 12.3.2 案例12-2:电信客户细分与流失分析 354 12.3.3 案例12-3:航空公司客户价值分析 359 本章小结 365 第13章 数据挖掘在金融领域的应用 366 13.1 金融科技概述 366 13.2 数据挖掘在银行业中的应用概述 369 13.3 综合案例:信用风险分析 372 本章小结 377 第14章 数据挖掘在财务风险分析和预警中的应用 378 14.1 数据挖掘在财务风险管理中的应用概述 378 14.2 综合案例 380 14.2.1 案例14-1:上市公司财务报表舞弊识别 380 14.2.2 案例14-2:上市公司财务困境预警 382 本章小结 386 第15章 数据挖掘在电子商务中的应用 387 15.1 数据挖掘在电子商务中的应用概述 387 15.2 主要应用领域 388 15.2.1 网络客户关系管理 388 15.2.2 网站设计优化 390 15.2.3 推荐系统 391 15.3 综合案例 396 15.3.1 案例15-1:基于关联分析的淘宝网推荐 396 15.3.2 案例15-2 电商客户流失预警 398 本章小结 403 附录A 数据挖掘常用资源列表 404 参考文献 406 |