大数据技术应用

作者
国信蓝桥教育科技(北京)股份有限公司
丛书名
出版社
电子工业出版社
ISBN
9787121401619
简要
简介
内容简介 本书是大数据应用开发(Java)”1+X职业技能等级证书配套教材,同时也是蓝桥学院Java全栈工程师”培养项目配套教材。全书共16章,包括大数据概述、Hadoop、HDFS、MapReduce、YARN、ZooKeeper、Hive、Flume、Azkaban、Sqoop、HBase、Kafka、Spark、大数据平台的管理与监控、大数据离线计算项目和大数据实时计算项目。本书从零基础开始逐一讲解大数据体系中的各种技术,通过丰富的实战案例阐述重点、难点知识,为初学者进入大数据领域打好基础。各章节设计合理,在每章开头设置本章简介,在知识点介绍后紧跟实践操作,在每章的末尾对重要内容进行了概括性回顾并通过练习帮助读者巩固相关知识。本书配套资源丰富,在蓝桥在线学习平台(www.lanqiao.cn/oneplusx/)上汇集了微课、实验等多种学习资源。 本书直接服务于大数据应用开发(Java)”1+X职业技能等级证书工作,可作为职业院校、应用型本科院校的计算机应用技术、软件技术、软件工程、网络工程和大数据应用技术等计算机类专业的教材,也可供从事计算机相关工作的技术人员参考。
目录
第1章 大数据概述\t1
1.1 大数据的历史、现状与未来\t1
1.1.1 大数据的历史\t1
1.1.2 大数据的现状\t3
1.1.3 大数据的未来\t5
1.2 大数据的概念、特征与价值\t5
1.2.1 大数据的概念\t5
1.2.2 大数据的特征\t6
1.2.3 大数据的价值\t7
1.3 大数据的技术架构\t8
1.4 大数据离线计算与实时计算\t11
1.4.1 大数据离线计算\t11
1.4.2 大数据实时计算\t12
1.5 大数据下的数据驱动\t13
1.6 本章小结\t15
1.7 本章练习\t15
第2章 初识Hadoop\t17
2.1 Hadoop概述\t17
2.2 Hadoop生态圈\t18
2.3 Hadoop集群安装部署\t21
2.3.1 集群环境准备\t21
2.3.2 Hadoop集群的重要概念\t27
2.3.3 伪分布模式安装\t28
2.3.4 全分布模式安装\t34
2.4 本章小结\t36
2.5 本章练习\t36
第3章 分布式文件系统―初识HDFS\t38
3.1 HDFS概述\t38
3.2 HDFS工作机制\t39
3.2.1 HDFS通信机制\t40
3.2.2 HDFS数据冗余机制\t41
3.2.3 HDFS元数据管理机制\t41
3.2.4 HDFS数据读写机制\t49
3.2.5 HDFS异常恢复机制\t51
3.2.6 HDFS安全模式机制\t51
3.3 HDFS操作与编程接口\t52
3.3.1 HDFS Web UI\t52
3.3.2 HDFS Shell\t54
3.3.3 HDFS Java API编程\t61
3.4 本章小结\t64
3.5 本章练习\t64
第4章 分布式计算框架MapReduce\t66
4.1 MapReduce概述\t66
4.2 MapReduce运行机制\t67
4.3 编程实现WordCount\t73
4.4 MapReduce数据类型与输入/输出格式\t76
4.5 文件切片\t78
4.6 Shuffle机制详解\t79
4.7 数据清洗案例\t90
4.8 本章小结\t94
4.9 本章练习\t95
第5章 统一资源管理和调度框架YARN\t97
5.1 YARN概述\t97
5.2 YARN体系架构\t98
5.3 YARN工作流程\t99
5.4 YARN调度器与调度策略\t100
5.5 本章小结\t101
5.6 本章练习\t102
第6章 分布式协调框架ZooKeeper\t103
6.1 ZooKeeper概述\t103
6.2 ZooKeeper系统模型\t104
6.2.1 数据模型\t104
6.2.2 集群模型\t107
6.3 ZooKeeper核心机制\t107
6.4 ZooKeeper典型应用\t111
6.5 ZooKeeper安装部署\t114
6.6 ZooKeeper Shell\t116
6.7 本章小结\t118
6.8 本章练习\t119
第7章 数据仓库Hive\t121
7.1 Hive概述\t121
7.2 Hive体系架构\t123
7.3 Hive安装部署\t124
7.4 Hive数据类型\t129
7.5 Hive文件格式\t130
7.6 Hive数据模型\t131
7.7 Hive函数\t132
7.8 Hive实战\t133
7.8.1 DDL操作\t133
7.8.2 DML操作\t139
7.8.3 WordCount详解\t153
7.8.4 高级操作\t154
7.9 本章小结\t163
7.10 本章练习\t164
第8章 日志采集工具Flume\t166
8.1 Flume概述\t166
8.2 Flume体系架构\t166
8.3 Flume安装部署\t170
8.4 Flume实战\t171
8.5 本章小结\t174
8.6 本章练习\t174
第9章 工作流调度器Azkaban\t175
9.1 Azkaban概述\t175
9.2 Azkaban的安装部署\t177
9.3 Azkaban实战\t183
9.4 本章小结\t187
9.5 本章练习\t187
第10章 数据迁移工具Sqoop\t189
10.1 Sqoop概述\t189
10.2 Sqoop的安装部署\t190
10.3 Sqoop实战\t191
10.4 本章小结\t200
10.5 本章练习\t201
第11章 分布式列存储数据库HBase\t202
11.1 HBase概述\t202
11.2 HBase数据模型\t203
11.3 HBase体系架构\t206
11.4 HBase运行机制\t208
11.5 HBase安装部署\t210
11.6 HBase实战\t214
11.6.1 HBase Shell\t214
11.6.2 HBase Java API编程\t220
11.6.3 HBase中使用过滤器Filter\t228
11.6.4 HBase中使用MapReduce\t236
11.7 HBase性能优化\t242
11.7.1 数据库表设计优化\t242
11.7.2 数据库读写优化\t243
11.7.3 HBase参数设置优化\t243
11.8 本章小结\t244
11.9 本章练习\t246
第12章 分布式消息队列Kafka\t248
12.1 两种消息模型\t248
12.2 Kafka架构与机制\t249
12.3 Kafka的安装部署\t253
12.4 Kafka实战\t256
12.4.1 Kafka Shell\t256
12.4.2 Kafka Java API\t258
12.5 本章小结\t261
12.6 本章练习\t262
第13章 内存计算框架Spark\t264
13.1 Spark概述\t264
13.2 Spark体系架构\t266
13.3 Spark安装部署\t268
13.4 Spark客户端操作\t272
13.5 Spark RDD\t276
13.5.1 Spark RDD概述\t276
13.5.2 Spark RDD算子\t276
13.5.3 Spark RDD依赖关系\t284
13.5.4 Spark RDD缓存\t285
13.6 Spark SQL\t286
13.6.1 Spark SQL概述\t286
13.6.2 Spark SQL DataFrame/DataSet\t287
13.6.3 Spark SQL编程\t288
13.6.4 Spark操作JDBC\t291
13.6.5 Spark操作Hive\t293
13.7 Spark Streaming\t294
13.7.1 Spark Streaming概述\t294
13.7.2 Spark Streaming实现实时WordCount\t295
13.7.3 Spark Streaming整合Flume\t300
13.7.4 Spark Streaming整合Kafka\t303
13.8 本章小结\t305
13.9 本章练习\t306
第14章 大数据平台的管理与监控\t308
14.1 平台管理与监控概述\t308
14.2 Nagios介绍\t309
14.3 Ganglia介绍\t310
14.4 Cacti介绍\t311
14.5 JMX介绍\t312
14.6 本章小结\t321
14.7 本章练习\t321
第15章 大数据离线计算项目\t323
15.1 项目概述\t323
15.2 需求分析与项目设计\t323
15.3 数据预处理\t325
15.4 数据分析并导出结果到MySQL\t327
15.5 数据可视化\t330
15.6 本章小结\t353
15.7 本章练习\t354
第16章 大数据实时计算项目\t355
16.1 项目概述\t355
16.2 需求分析与项目设计\t355
16.3 数据采集到消息中间件\t356
16.4 数据实时计算并保存到Redis\t357
16.5 数据可视化\t359
16.6 本章小结\t363
16.7 本章练习\t363
附录A 部分练习参考答案及解析\t364
参考文献\t377

推荐

车牌查询
桂ICP备20004708号-3