作者 |
张良均 等 |
丛书名 |
大数据技术丛书 |
出版社 |
机械工业出版社 |
ISBN |
9782112291153 |
简要 |
简介 |
内容简介书籍计算机书籍 ---------------------------5850459 - Hadoop与大数据挖掘--------------------------- 这是一本适合教学和零基础自学的Hadoop与大数据挖掘的教程,即便你完全没有Hadoop编程基础和大数据挖掘基础,根据本书中的理论知识和上机实践,也能迅速掌握如何使用Hadoop进行大数据挖掘。全书主要分为两篇:基础篇(1-7章),首先从宏观上介绍了大数据相关概念和技术,然后逐一对Hadoop、Hive、HBase、Pig、Spark、Oozie等一系列大数据技术的概念、原理、架构,以及企业应用方法进行了详细介绍,同时配有大量的案例。掌握了这些内容,就具备了大数据技术的基础;挖掘实战篇(8章),主要是一个企业级大数据应用项目——电子商务智能推荐系统。通过分析应用背景、构建系统,使读者了解针对系统的每一层应用使用什么大数据技术来解决问题。涉及的流程有数据采集、数据预处理、模型构建等,在每一个流程中会进行大数据相关技术实践,运用实际数据来进行分析,使读者切身感受到利用大数据技术解决问题的魅力。 ---------------------------4898547 - Hadoop大数据分析与挖掘实战--------------------------- 本书充满了从多年投资与信贷业务中获得的深刻的洞察,讨论了广泛的议题,包括:现金CDO违约相关性贷款与贷款担保证券CDO权益级结构化产品CDO和担保品概览CDO套利新兴市场和市值型CDO及合成型CDO以及更多相关的议题CDO为那些能够理解其复杂性的人们提供了激动人心的机会。借助本书第2版的指导,读者能够理解并且利用这一变化的市场及其相关产品。 |
目录 |
[套装书具体书目] 4898547 - Hadoop大数据分析与挖掘实战 - 9787111522652 - 机械工业出版社 - 定价 69 5850459 - Hadoop与大数据挖掘 - 9787111567875 - 机械工业出版社 - 定价 69 ---------------------------5850459 - Hadoop与大数据挖掘--------------------------- 前言 第一篇 基础篇 第1章 浅谈大数据2 1.1 大数据概述3 1.2 大数据平台4 1.3 本章小结5 第2章 大数据存储与运算利器—Hadoop6 2.1 Hadoop概述6 2.1.1 Hadoop简介6 2.1.2 Hadoop存储—HDFS8 2.1.3 Hadoop计算—MapReduce11 2.1.4 Hadoop资源管理—YARN13 2.1.5 Hadoop生态系统14 2.2 Hadoop配置及IDE配置17 2.2.1 准备工作17 2.2.2 环境配置18 2.2.3 集群启动关闭与监控24 2.2.4 动手实践:一键式Hadoop集群启动关闭25 2.2.5 动手实践:Hadoop IDE配置26 2.3 Hadoop集群命令28 2.3.1 HDFS常用命令hdfs dfs30 2.3.2 动手实践:hdfs dfs命令实战31 2.3.3 MapReduce常用命令mapred job32 2.3.4 YARN常用命令yarn jar32 2.3.5 动手实践:运行MapReduce任务33 2.4 Hadoop编程开发33 2.4.1 HDFS Java API操作33 2.4.2 MapReduce原理35 2.4.3 动手实践:编写Word Count程序并打包运行44 2.4.4 MapReduce组件分析与编程实践46 2.5 K-Means算法原理及HadoopMapReduce实现53 2.5.1 K-Means算法原理53 2.5.2 动手实践:K-Means算法实现55 2.5.3 Hadoop K-Means算法实现思路55 2.5.4 Hadoop K-Means编程实现57 2.6 TF-IDF算法原理及HadoopMapReduce实现67 2.6.1 TF-IDF算法原理67 2.6.2 Hadoop TF-IDF编程思路67 2.6.3 Hadoop TF-IDF编程实现68 2.7 本章小结79 第3章 大数据查询—Hive81 3.1 Hive概述81 3.1.1 Hive体系架构82 3.1.2 Hive数据类型86 3.1.3 Hive安装87 3.1.4 动手实践:Hive安装配置91 3.1.5 动手实践:HiveQL基础—SQL91 3.2 HiveQL语句93 3.2.1 数据库操作94 3.2.2 Hive表定义94 3.2.3 数据导入100 3.2.4 数据导出103 3.2.5 HiveQL查询104 3.3 动手实践:基于Hive的学生信息查询108 3.4 基于Hive的航空公司客户价值数据预处理及分析109 3.4.1 背景与挖掘目标109 3.4.2 分析方法与过程111 3.5 本章小结115 第4章 大数据快速读写—HBase116 4.1 HBase概述116 4.2 配置HBase集群118 4.2.1 Zookeeper简介及配置118 4.2.2 配置HBase121 4.2.3 动手实践:HBase安装及运行122 4.2.4 动手实践:ZooKeeper获取HBase状态122 4.3 HBase原理与架构组件123 4.3.1 HBase架构与组件123 4.3.2 HBase数据模型127 4.3.3 读取/写入HBase数据128 4.3.4 RowKey设计原则129 4.3.5 动手实践:HBase数据模型验证131 4.4 HBase Shell操作132 4.4.1 HBase常用Shell命令132 4.4.2 动手实践:HBase Shell操作136 4.5 Java API &MapReduce与HBase交互137 4.5.1 搭建HBase开发环境137 4.5.2 使用Java API操作HBase表144 4.5.3 动手实践:HBase Java API使用147 4.5.4 MapReduce与HBase交互147 4.5.5 动手实践:HBase表导入导出150 4.6 基于HBase的冠字号查询系统151 4.6.1 案例背景151 4.6.2 功能指标151 4.6.3 系统设计152 4.6.4 动手实践:构建基于HBase的冠字号查询系统162 4.7 本章小结175 第5章 大数据处理—Pig176 5.1 Pig概述176 5.1.1 Pig Latin简介177 5.1.2 Pig数据类型179 5.1.3 Pig与Hive比较179 5.2 配置运行Pig180 5.2.1 Pig配置181 5.2.2 Pig运行模式181 5.3 常用Pig Latin操作182 5.3.1 数据加载182 5.3.2 数据存储184 5.3.3 Pig参数替换185 5.3.4 数据转换186 5.4 综合实践194 5.4.1 动手实践:访问统计信息数据处理194 5.4.2 动手实践:股票交易数据处理195 5.5 本章小结196 第6章 大数据快速运算与挖掘—Spark197 6.1 Spark概述197 6.2 Spark安装集群199 6.2.1 3种运行模式199 6.2.2 动手实践:配置Spark独立集群199 6.2.3 3种运行模式实例201 6.2.4 动手实践:Spark Streaming实时日志统计205 6.2.5 动手实践:Spark开发环境—Intellij IDEA配置207 6.3 Spark架构与核心原理212 6.3.1 Spark架构212 6.3.2 RDD原理213 6.3.3 深入理解Spark核心原理215 6.4 Spark编程技巧218 6.4.1 Scala基础218 6.4.2 Spark基础编程218 6.5 如何学习Spark MLlib225 6.5.1 确定应用227 6.5.2 ALS算法直观描述228 6.5.3 编程实现229 6.5.4 问题解决及模型调优233 6.6 动手实践:基于Spark ALS电影推荐系统234 6.6.1 动手实践:生成算法包235 6.6.2 动手实践:完善推荐系统239 6.7 本章小结250 第7章 大数据工作流—Oozie252 7.1 Oozie简介252 7.2 编译配置并运行Oozie253 7.2.1 动手实践:编译Oozie253 7.2.2 动手实践:Oozie Server/client配置254 7.3 Oozie WorkFlow实践257 7.3.1 定义及提交工作流257 7.3.2 动手实践:MapReduce Work-Flow定义及调度260 7.3.3 动手实践:Pig WorkFlow定义及调度263 7.3.4 动手实践:Hive WorkFlow定义及调度265 7.3.5 动手实践:Spark WorkFlow定义及调度267 7.3.6 动手实践:Spark On Yarn定义及调度268 7.4 Oozie Coordinator实践270 7.4.1 动手实践:基于时间调度270 7.4.2 动手实践:基于数据有效性调度273 7.5 本章小结275 第二篇 挖掘实战篇 第8章 法律服务大数据智能推荐278 8.1 背景278 8.2 目标279 8.3 系统架构及流程279 8.4 分析过程及实现281 8.4.1 数据传输281 8.4.2 数据传输:动手实践282 8.4.3 数据探索分析283 8.4.4 数据预处理292 8.4.5 模型构建297 8.5 构建法律服务大数据智能推荐系统313 8.5.1 动手实践:构建推荐系统JavaEE313 8.5.2 动手实践:Oozie工作流任务317 8.6 本章小结322 ---------------------------4898547 - Hadoop大数据分析与挖掘实战--------------------------- 前 言 基 础 篇 第1章 数据挖掘基础2 1.1 某知名连锁餐饮企业的困惑2 1.2 从餐饮服务到数据挖掘3 1.3 数据挖掘的基本任务4 1.4 数据挖掘建模过程4 1.4.1 定义挖掘目标4 1.4.2 数据取样5 1.4.3 数据探索6 1.4.4 数据预处理12 1.4.5 挖掘建模14 1.4.6 模型评价14 1.5 餐饮服务中的大数据应用15 1.6 小结15 第2章 Hadoop基础16 2.1 概述16 2.1.1 Hadoop简介16 2.1.2 Hadoop生态系统17 2.2 安装与配置19 2.3 Hadoop原理26 2.3.1 Hadoop HDFS原理26 2.3.2 Hadoop MapReduce原理27 2.3.3 Hadoop YARN原理28 2.4 动手实践30 2.5 小结33 第3章 Hadoop生态系统:Hive34 3.1 概述34 3.1.1 Hive简介34 3.1.2 Hive安装与配置35 3.2 Hive原理38 3.2.1 Hive架构38 3.2.2 Hive的数据模型40 3.3 动手实践41 3.4 小结45 第4章 Hadoop生态系统:HBase46 4.1 概述46 4.1.1 HBase简介46 4.1.2 HBase安装与配置47 4.2 HBase原理50 4.2.1 HBase架构50 4.2.2 HBase与RDBMS51 4.2.3 HBase访问接口52 4.2.4 HBase数据模型53 4.3 动手实践54 4.4 小结61 第5章 大数据挖掘建模平台62 5.1 常用的大数据平台62 5.2 TipDM-HB大数据挖掘建模平台63 5.2.1 TipDM-HB大数据挖掘建模平台的功能63 5.2.2 TipDM-HB大数据挖掘建模平台操作流程及实例65 5.2.3 TipDM-HB大数据挖掘建模平台的特点67 5.3 小结68 第6章 挖掘建模69 6.1 分类与预测69 6.1.1 实现过程69 6.1.2 常用的分类与预测算法70 6.1.3 决策树71 6.1.4 Mahout中Random Forests算法的实现原理75 6.1.5 动手实践79 6.2 聚类分析83 6.2.1 常用聚类分析算法83 6.2.2 K-Means聚类算法84 6.2.3 Mahout中K-Means算法的实现原理88 6.2.4 动手实践90 6.3 关联规则93 6.3.1 常用的关联规则算法93 6.3.2 FP-Growth关联规则算法94 6.3.3 Mahout中Parallel Frequent Pattern Mining算法的实现原理98 6.3.4 动手实践100 6.4 协同过滤102 6.4.1 常用的协同过滤算法102 6.4.2 基于项目的协同过滤算法简介102 6.4.3 Mahout中Itembased Collaborative Filtering算法的实现原理103 6.4.4 动手实践106 6.5 小结109 实 战 篇 第7章 法律咨询数据分析与服务推荐112 7.1 背景与挖掘目标112 7.2 分析方法与过程114 7.2.1 数据抽取120 7.2.2 数据探索分析120 7.2.3 数据预处理125 7.2.4 模型构建130 7.3 上机实验139 7.4 拓展思考140 7.5 小结145 第8章 电商产品评论数据情感分析146 8.1 背景与挖掘目标146 8.2 分析方法与过程146 8.2.1 评论数据采集147 8.2.2 评论预处理150 8.2.3 文本评论分词155 8.2.4 构建模型155 8.3 上机实验167 8.4 拓展思考168 8.5 小结169 第9章 航空公司客户价值分析170 9.1 背景与挖掘目标170 9.2 分析方法与过程171 9.2.1 数据抽取174 9.2.2 数据探索分析174 9.2.3 数据预处理175 9.2.4 模型构建177 9.3 上机实验182 9.4 拓展思考183 9.5 小结183 第10章 基站定位数据商圈分析184 10.1 背景与挖掘目标184 10.2 分析方法与过程186 10.2.1 数据抽取186 10.2.2 数据探索分析187 10.2.3 数据预处理188 10.2.4 构建模型191 10.3 上机实验194 10.4 拓展思考195 10.5 小结195 第11章 互联网电影智能推荐196 11.1 背景与挖掘目标196 11.2 分析方法与过程197 11.2.1 数据抽取199 11.2.2 构建模型199 11.3 上机实验201 11.4 拓展思考202 11.5 小结203 第12章 家电故障备件储备预测分析204 12.1 背景与挖掘目标204 12.2 分析方法与过程206 12.2.1 数据探索分析207 12.2.2 数据预处理209 12.2.3 构建模型212 12.3 上机实验216 12.4 拓展思考217 12.5 小结217 第13章 市供水混凝投药量控制分析218 13.1 背景与挖掘目标218 13.2 分析方法与过程220 13.2.1 数据抽取221 13.2.2 数据探索分析221 13.2.3 数据预处理223 13.2.4 构建模型227 13.3 上机实验237 13.4 拓展思考238 13.5 小结239 第14章 基于图像处理的车辆压双黄线检测240 14.1 背景与挖掘目标240 14.2 分析方法与过程241 14.2.1 数据抽取242 14.2.2 数据探索分析242 14.2.3 数据预处理242 14.2.4 构建模型249 14.3 上机实验250 14.4 拓展思考250 14.5 小结251 高 级 篇 第15章 基于Mahout的大数据挖掘开发254 15.1 概述254 15.2 环境配置255 15.3 基于Mahout算法接口的二次开发258 15.3.1 Mahout算法实例258 15.3.2 Mahout算法接口的二次开发示例259 15.4 小结271 第16章 基于TipDM-HB的数据挖掘二次开发272 16.1 概述272 16.1.1 TipDM-HB大数据挖掘建模平台服务接口272 16.1.2 Apache CXF简介276 16.2 TipDM-HB大数据挖掘建模平台服务开发实例277 16.2.1 环境配置277 16.2.2 开发实例280 16.3 小结288 参考资料289 |