| 作者 |
| 徐琴 |
| 丛书名 |
| 出版社 |
| 机械工业出版社* |
| ISBN |
| 9787111605843 |
| 简要 |
| 简介 |
| 内容简介 本书系统地介绍了数据预处理、数据仓库和数据挖掘的原理、方法及应用技术, 以及采用Mahout 对相应的挖掘算法进行实际练习。本书共有11 章, 分为两大部分。第1 ~7 章为理论部分。第1 章为绪论, 介绍了数据挖掘与知识发现领域中的一些基本理论、研究方法等, 也简单介绍了Hadoop 生态系统中的Mahout; 第2 ~7 章按知识发现的过程, 介绍数据预处理的方法和技术、数据仓库的构建与OLAP 技术、数据挖掘原理及算法(包括关联规则挖掘、聚类分析方法、分类规则挖掘)、常见的数据挖掘工具与产品。第8 ~11 章为实验部分, 采用Mahout 对数据挖掘各类算法进行实际练习。 本书应用性较强, 与实践相结合, 以小数据集为例详细介绍各种挖掘算法, 使读者更易掌握挖掘算法的基本原理及过程; 使用广泛的大数据平台———Hadoop 生态系统中的Mahout 对各种挖掘算法进行实际练习, 实战性强, 也符合目前数据处理与挖掘的发展趋势。 本书既便于教师课堂讲授, 又便于自学者阅读, 可作为高等院校高年级学生“数据挖掘技术” “数据仓库与数据挖掘” “数据处理与智能决策”等课程的教材。 |
| 目录 |
前 言 上篇 理论部分 第1 章 绪论 2 1. 1 KDD 与数据挖掘 2 1. 1. 1 KDD 的定义 2 1. 1. 2 KDD 过程与数据挖掘 3 1. 2 数据挖掘的对象 4 1. 3 数据挖掘的任务 8 1. 4 Mahout 简介 12 1. 4. 1 Mahout 12 1. 4. 2 Mahout 算法库 13 1. 4. 3 Mahout 应用 16 1. 5 小结 17 1. 6 习题 17 第2 章 数据预处理 18 2. 1 数据概述 18 2. 1. 1 属性与度量 19 2. 1. 2 数据集的类型 23 2. 2 数据预处理 27 2. 2. 1 数据预处理概述 28 2. 2. 2 数据清理 30 2. 2. 3 数据集成 34 2. 2. 4 数据变换 38 2. 2. 5 数据归约 40 2. 2. 6 离散化与概念分层 48 2. 3 小结 52 2. 4 习题 53 第3 章 数据仓库 55 3. 1 数据仓库概述 55 3. 1. 1 从数据库到数据仓库 55 3. 1. 2 数据仓库 56 3. 1. 3 数据仓库系统结构 59 3. 1. 4 数据仓库中的名词 59 3. 2 数据仓库的ETL 60 3. 2. 1 ETL 的基本概念 60 3. 2. 2 ETL 的工具 60 3. 3 元数据与外部数据 62 3. 3. 1 元数据的定义 62 3. 3. 2 元数据的存储与管理 63 3. 3. 3 外部数据 64 3. 4 数据仓库模型及数据仓库的建立 65 3. 4. 1 多维数据模型 65 3. 4. 2 多维数据模型的建立 67 3. 5 联机分析处理OLAP 技术 73 3. 5. 1 OLAP 概述 73 3. 5. 2 OLAP 与数据仓库 75 3. 5. 3 OLAP 的模型 77 3. 5. 4 OLAP 的基本操作 79 3. 6 数据仓库实例 80 3. 6. 1 数据仓库的创建 81 3. 6. 2 数据的提取、转换和加载 83 3. 7 小结 83 3. 8 习题 83 第4 章 关联规则挖掘 84 4. 1 问题定义 85 4. 1. 1 购物篮分析 85 4. 1. 2 基本术语 85 4. 2 频繁项集的产生 87 4. 2. 1 先验原理 88 4. 2. 2 Apriori 算法的频繁项集产生 90 4. 3 规则产生 94 4. 3. 1 基于置信度的剪枝 94 4. 3. 2 Apriori 算法中规则的产生 94 4. 4 FP-growth 算法 95 4. 5 多层关联规则和多维关联规则 99 4. 5. 1 多层关联规则 99 4. 5. 2 多维关联规则 102 4. 6 非二元属性的关联规则 103 4. 7 关联规则的评估 104 4. 8 序列模式挖掘算法 106 4. 8. 1 序列模式的概念 106 4. 8. 2 Apriori 类算法———AprioriAll 算法 109 4. 9 小结 114 4. 10 习题 115 第5 章 聚类分析方法 118 5. 1 聚类分析概述 118 5. 1. 1 聚类的定义 118 5. 1. 2 聚类算法的要求 119 5. 1. 3 聚类算法的分类 120 5. 1. 4 相似性的测度 121 5. 2 基于划分的聚类算法 126 5. 2. 1 基于质心的(Centroid-based) 划分方法———基本K-means 聚类算法 126 5. 2. 2 K-means 聚类算法的拓展 128 5. 2. 3 基于中心的(Medoid-based) 划分方法———PAM 算法 130 5. 3 层次聚类算法 133 5. 3. 1 AGNES 算法 136 5. 3. 3 改进算法———BIRCH 算法 137 5. 3. 4 改进算法———CURE 算法 141 5. 4 基于密度的聚类算法 143 5. 5 聚类算法评价 147 5. 6 离群点挖掘 149 5. 6. 1 相关问题概述 149 5. 6. 2 基于距离的方法 150 5. 6. 3 基于相对密度的方法 154 5. 7 小结 158 5. 8 习题 158 第6 章 分类规则挖掘 160 6. 1 分类问题概述 160 6. 2 最近邻分类法 162 6. 2. 1 KNN 算法原理 162 6. 2. 2 KNN 算法的特点及改进 165 6. 2. 3 基于应用平台的KNN 算法应用 实例 166 6. 3 决策树分类方法 167 6. 3. 1 决策树概述 167 6. 3. 2 信息论 171 6. 3. 3 ID3 算法 172 6. 3. 4 算法改进: C4. 5 算法 176 6. 4 贝叶斯分类方法 180 6. 4. 1 贝叶斯定理 181 6. 4. 2 朴素贝叶斯分类器 183 6. 4. 3 朴素贝叶斯分类方法的改进 185 6. 5 神经网络算法 188 6. 5. 1 前馈神经网络概述 188 6. 5. 2 学习前馈神经网络 189 6. 5. 3 BP 神经网络模型与学习算法 191 6. 6 回归分析 193 6. 7 小结 196 6. 8 习题 197 第7 章 数据挖掘工具与产品 198 7. 1 评价数据挖掘产品的标准 198 7. 2 数据挖掘工具简介 200 7. 3 数据挖掘的可视化 203 7. 3. 1 数据挖掘可视化的过程与方法 203 7. 3. 2 数据挖掘可视化的分类 204 7. 3. 3 数据挖掘可视化的工具 206 7. 4 Weka 207 7. 4. 1 Weka Explorer 208 7. 4. 2 Weka Experimenter 216 7. 4. 3 KnowledgeFlow 219 7. 5 小结 221 7. 6 习题 221 下篇 实验部分 第8 章 Mahout 入门 224 8. 1 Mahout 安装前的准备 224 8. 1. 1 安装JDK 224 8. 1. 2 安装Hadoop 227 8. 2 Mahout 的安装 237 8. 3 测试安装 238 8. 4 小结 239 第9 章 使用Mahout 实践关联规则 算法 240 9. 1 FP 树关联规则算法 240 9. 1. 1 Mahout 中Parallel Frequent Pattern Mining 算法的实现原理 240 9. 1. 2 Mahout 的Parallel F |