| 作者 |
| 国信蓝桥教育科技(北京)股份有限公司 |
| 丛书名 |
| 出版社 |
| 电子工业出版社 |
| ISBN |
| 9787121401619 |
| 简要 |
| 简介 |
| 内容简介 本书是大数据应用开发(Java)”1+X职业技能等级证书配套教材,同时也是蓝桥学院Java全栈工程师”培养项目配套教材。全书共16章,包括大数据概述、Hadoop、HDFS、MapReduce、YARN、ZooKeeper、Hive、Flume、Azkaban、Sqoop、HBase、Kafka、Spark、大数据平台的管理与监控、大数据离线计算项目和大数据实时计算项目。本书从零基础开始逐一讲解大数据体系中的各种技术,通过丰富的实战案例阐述重点、难点知识,为初学者进入大数据领域打好基础。各章节设计合理,在每章开头设置本章简介,在知识点介绍后紧跟实践操作,在每章的末尾对重要内容进行了概括性回顾并通过练习帮助读者巩固相关知识。本书配套资源丰富,在蓝桥在线学习平台(www.lanqiao.cn/oneplusx/)上汇集了微课、实验等多种学习资源。 本书直接服务于大数据应用开发(Java)”1+X职业技能等级证书工作,可作为职业院校、应用型本科院校的计算机应用技术、软件技术、软件工程、网络工程和大数据应用技术等计算机类专业的教材,也可供从事计算机相关工作的技术人员参考。 |
| 目录 |
| 第1章 大数据概述\t1 1.1 大数据的历史、现状与未来\t1 1.1.1 大数据的历史\t1 1.1.2 大数据的现状\t3 1.1.3 大数据的未来\t5 1.2 大数据的概念、特征与价值\t5 1.2.1 大数据的概念\t5 1.2.2 大数据的特征\t6 1.2.3 大数据的价值\t7 1.3 大数据的技术架构\t8 1.4 大数据离线计算与实时计算\t11 1.4.1 大数据离线计算\t11 1.4.2 大数据实时计算\t12 1.5 大数据下的数据驱动\t13 1.6 本章小结\t15 1.7 本章练习\t15 第2章 初识Hadoop\t17 2.1 Hadoop概述\t17 2.2 Hadoop生态圈\t18 2.3 Hadoop集群安装部署\t21 2.3.1 集群环境准备\t21 2.3.2 Hadoop集群的重要概念\t27 2.3.3 伪分布模式安装\t28 2.3.4 全分布模式安装\t34 2.4 本章小结\t36 2.5 本章练习\t36 第3章 分布式文件系统―初识HDFS\t38 3.1 HDFS概述\t38 3.2 HDFS工作机制\t39 3.2.1 HDFS通信机制\t40 3.2.2 HDFS数据冗余机制\t41 3.2.3 HDFS元数据管理机制\t41 3.2.4 HDFS数据读写机制\t49 3.2.5 HDFS异常恢复机制\t51 3.2.6 HDFS安全模式机制\t51 3.3 HDFS操作与编程接口\t52 3.3.1 HDFS Web UI\t52 3.3.2 HDFS Shell\t54 3.3.3 HDFS Java API编程\t61 3.4 本章小结\t64 3.5 本章练习\t64 第4章 分布式计算框架MapReduce\t66 4.1 MapReduce概述\t66 4.2 MapReduce运行机制\t67 4.3 编程实现WordCount\t73 4.4 MapReduce数据类型与输入/输出格式\t76 4.5 文件切片\t78 4.6 Shuffle机制详解\t79 4.7 数据清洗案例\t90 4.8 本章小结\t94 4.9 本章练习\t95 第5章 统一资源管理和调度框架YARN\t97 5.1 YARN概述\t97 5.2 YARN体系架构\t98 5.3 YARN工作流程\t99 5.4 YARN调度器与调度策略\t100 5.5 本章小结\t101 5.6 本章练习\t102 第6章 分布式协调框架ZooKeeper\t103 6.1 ZooKeeper概述\t103 6.2 ZooKeeper系统模型\t104 6.2.1 数据模型\t104 6.2.2 集群模型\t107 6.3 ZooKeeper核心机制\t107 6.4 ZooKeeper典型应用\t111 6.5 ZooKeeper安装部署\t114 6.6 ZooKeeper Shell\t116 6.7 本章小结\t118 6.8 本章练习\t119 第7章 数据仓库Hive\t121 7.1 Hive概述\t121 7.2 Hive体系架构\t123 7.3 Hive安装部署\t124 7.4 Hive数据类型\t129 7.5 Hive文件格式\t130 7.6 Hive数据模型\t131 7.7 Hive函数\t132 7.8 Hive实战\t133 7.8.1 DDL操作\t133 7.8.2 DML操作\t139 7.8.3 WordCount详解\t153 7.8.4 高级操作\t154 7.9 本章小结\t163 7.10 本章练习\t164 第8章 日志采集工具Flume\t166 8.1 Flume概述\t166 8.2 Flume体系架构\t166 8.3 Flume安装部署\t170 8.4 Flume实战\t171 8.5 本章小结\t174 8.6 本章练习\t174 第9章 工作流调度器Azkaban\t175 9.1 Azkaban概述\t175 9.2 Azkaban的安装部署\t177 9.3 Azkaban实战\t183 9.4 本章小结\t187 9.5 本章练习\t187 第10章 数据迁移工具Sqoop\t189 10.1 Sqoop概述\t189 10.2 Sqoop的安装部署\t190 10.3 Sqoop实战\t191 10.4 本章小结\t200 10.5 本章练习\t201 第11章 分布式列存储数据库HBase\t202 11.1 HBase概述\t202 11.2 HBase数据模型\t203 11.3 HBase体系架构\t206 11.4 HBase运行机制\t208 11.5 HBase安装部署\t210 11.6 HBase实战\t214 11.6.1 HBase Shell\t214 11.6.2 HBase Java API编程\t220 11.6.3 HBase中使用过滤器Filter\t228 11.6.4 HBase中使用MapReduce\t236 11.7 HBase性能优化\t242 11.7.1 数据库表设计优化\t242 11.7.2 数据库读写优化\t243 11.7.3 HBase参数设置优化\t243 11.8 本章小结\t244 11.9 本章练习\t246 第12章 分布式消息队列Kafka\t248 12.1 两种消息模型\t248 12.2 Kafka架构与机制\t249 12.3 Kafka的安装部署\t253 12.4 Kafka实战\t256 12.4.1 Kafka Shell\t256 12.4.2 Kafka Java API\t258 12.5 本章小结\t261 12.6 本章练习\t262 第13章 内存计算框架Spark\t264 13.1 Spark概述\t264 13.2 Spark体系架构\t266 13.3 Spark安装部署\t268 13.4 Spark客户端操作\t272 13.5 Spark RDD\t276 13.5.1 Spark RDD概述\t276 13.5.2 Spark RDD算子\t276 13.5.3 Spark RDD依赖关系\t284 13.5.4 Spark RDD缓存\t285 13.6 Spark SQL\t286 13.6.1 Spark SQL概述\t286 13.6.2 Spark SQL DataFrame/DataSet\t287 13.6.3 Spark SQL编程\t288 13.6.4 Spark操作JDBC\t291 13.6.5 Spark操作Hive\t293 13.7 Spark Streaming\t294 13.7.1 Spark Streaming概述\t294 13.7.2 Spark Streaming实现实时WordCount\t295 13.7.3 Spark Streaming整合Flume\t300 13.7.4 Spark Streaming整合Kafka\t303 13.8 本章小结\t305 13.9 本章练习\t306 第14章 大数据平台的管理与监控\t308 14.1 平台管理与监控概述\t308 14.2 Nagios介绍\t309 14.3 Ganglia介绍\t310 14.4 Cacti介绍\t311 14.5 JMX介绍\t312 14.6 本章小结\t321 14.7 本章练习\t321 第15章 大数据离线计算项目\t323 15.1 项目概述\t323 15.2 需求分析与项目设计\t323 15.3 数据预处理\t325 15.4 数据分析并导出结果到MySQL\t327 15.5 数据可视化\t330 15.6 本章小结\t353 15.7 本章练习\t354 第16章 大数据实时计算项目\t355 16.1 项目概述\t355 16.2 需求分析与项目设计\t355 16.3 数据采集到消息中间件\t356 16.4 数据实时计算并保存到Redis\t357 16.5 数据可视化\t359 16.6 本章小结\t363 16.7 本章练习\t363 附录A 部分练习参考答案及解析\t364 参考文献\t377 |