大数据平台运维(中级)

作者
新华三技术有限公司
丛书名
出版社
电子工业出版社
ISBN
9787121410307
简要
简介
内容简介 本书为“1+X”职业技能等级证书配套教材,按国家1+X 证书制度试点大数据平台运维职业技能等级标准编写。本书从大数据平台运维工程师的角度,由浅入深、全方位地介绍了大数据平台运维的相关实践知识和核心实操。本书共六部分,包括21章:*部分,大数据平台架构,涉及大数据的特点及发展趋势、大数据的实施和运维流程、大数据的应用场景与案例;第二部分,大数据平台高可用(HA)集群部署,涉及Hadoop集群基础环境的配置、Hadoop HA集群的配置、Hadoop HA集群的启动;第三部分,大数据组件的维护,涉及HBase组件的维护、Hive组件的维护、ZooKeeper组件的维护、ETL组件的维护、Spark组件的维护;第四部分,大数据平台优化,涉及Linux系统优化、HDFS配置优化、MapReduce配置优化、Spark配置优化;第五部分,大数据平台的诊断与处理,涉及Hadoop及生态圈组件负载均衡的诊断与处理、集群节点故障的诊断与处理、集群组件服务故障的诊断与处理;第六部分,大数据平台项目综合案例,涉及数据仓库运维项目实战、金融行业运维项目实战、典型大数据平台监控运维项目实战。本书可作为中职院校和高职院校大数据及计算机类相关专业的教材,也可作为大数据平台运维人员的参考用书。
目录






第一部分 大数据平台架构

第1章 大数据的特点及发展趋势\t2

1.1 大数据平台架构概述\t2

1.1.1 大数据的概念\t2

1.1.2 大数据的特征\t3

1.1.3 大数据的处理流程及相关

技术\t4

1.1.4 大数据平台架构的特点\t5

1.2 大数据平台架构的原理\t5

1.3 大数据的发展历程\t6

1.3.1 大数据的具体发展过程\t6

1.3.2 大数据技术的具体发展历程\t7

1.4 大数据的发展趋势\t8

1.4.1 大数据技术面临的挑战\t8

1.4.2 大数据应用的发展趋势\t10

1.5 本章小结\t11

第2章 大数据的实施和运维流程\t12

2.1 大数据实施和运维工程师的

工作职责\t12

2.1.1 大数据职位体系\t12

2.1.2 大数据实施工程师的

工作职责\t14

2.1.3 大数据运维工程师的

工作职责\t15

2.2 大数据实施和运维工程师的

工作能力素养要求\t15

2.2.1 大数据实施工程师的

工作能力素养要求\t15

2.2.2 大数据运维工程师的

工作能力素养要求\t16

2.3 大数据项目实施的工作流程\t18

2.3.1 大数据项目规划阶段\t18

2.3.2 大数据项目数据治理阶段\t19

2.3.3 大数据项目设计阶段\t20

2.3.4 大数据项目数据应用阶段\t21

2.3.5 大数据项目迭代实施与

应用推广阶段\t22

2.4 大数据运维的日常工作\t23

2.4.1 应急处置\t23

2.4.2 故障报告\t24

2.4.3 故障检查\t24

2.4.4 故障诊断\t25

2.4.5 故障测试与修复\t25

2.5 本章小结\t26

第3章 大数据的应用场景与案例\t27

3.1 大数据平台架构的典型

行业应用场景\t27

3.1.1 医疗行业的应用\t27

3.1.2 金融行业的应用\t28

3.1.3 零售行业的应用\t29

3.1.4 地产行业的应用\t29

3.1.5 农业的应用\t30

3.1.6 政务和智慧城市的应用\t30

3.1.7 教育行业的应用\t30

3.1.8 环境行业的应用\t30

3.2 大数据平台架构的典型

企业应用场景\t30

3.2.1 舆情分析\t31

3.2.2 商业智能\t31

3.3 Hadoop生态圈中行业应用的

典型实战案例\t32

3.3.1 电信行业——中国移动

基于Hadoop的大数据应用\t32

3.3.2 金融行业——VISA公司

的Hadoop应用案例\t33

3.3.3 电商行业——eBay网站

的Hadoop应用案例\t33

3.4 Hadoop生态圈中企业应用的

典型实战案例\t33

3.4.1 新华三大数据集成平台

在大地影院的应用案例背景\t33

3.4.2 大地的应用案例的用户

痛点分析\t34

3.4.3 大地的应用案例的项目需求\t34

3.4.4 大地的应用案例的数据构成\t34

3.4.5 大地的应用案例的技术

方案设计与实现\t34



3.4.6 大地的应用案例系统核心组件

(H3C数据集成组件)简介\t36



3.4.7 大地的应用案例的系统

优势及成效\t36

3.5 本章小结\t36

第二部分 大数据平台高可用(HA)集群部署

第4章 Hadoop集群基础环境的配置\t38

4.1 Hadoop集群概述\t38

4.1.1 Hadoop集群的核心组件\t38

4.1.2 Hadoop集群的网络拓扑

结构\t40

4.2 平台系统的环境设置\t41

4.2.1 Linux系统环境配置\t41

4.2.2 创建hadoop用户\t43

4.3 Linux防火墙\t43

4.3.1 Linux防火墙的种类与特点\t44

4.3.2 Linux防火墙管理\t45

4.4 SELinux\t47

4.4.1 SELinux简介\t47

4.4.2 SELinux的功能\t47

4.4.3 SELinux的配置\t47

4.4.4 关闭集群中的SELinux\t47

4.5 配置集群主机之间时钟同步\t48

4.5.1 直接同步\t48

4.5.2 平滑同步\t49

4.6 SSH无密码登录\t50

4.6.1 生成SSH密钥\t50

4.6.2 交换SSH密钥\t51

4.6.3 验证SSH无密码登录\t52

4.7 Java环境变量配置\t52

4.7.1 JDK功能简介\t52

4.7.2 下载JDK安装包\t53

4.7.3 JDK的安装与环境变量配置\t53

4.8 Hadoop的安装与配置\t54

4.8.1 获取Hadoop安装包\t54

4.8.2 安装Hadoop软件\t54

4.9 本章小结\t55

第5章 Hadoop HA集群的配置\t56

5.1 Hadoop HA集群的特点\t56

5.2 Hadoop HA集群的实现原理\t57

5.2.1 HDFS HA的实现原理\t57

5.2.2 YARN HA的实现原理\t58

5.3 ZooKeeper的特点\t58

5.3.1 ZooKeeper的功能原理\t58

5.3.2 ZooKeeper集群节点组成\t59

5.3.3 ZooKeeper的同步机制\t60

5.3.4 ZooKeeper的选举机制\t60

5.4 ZooKeeper HA集群\t61

5.4.1 在master节点上安装

部署ZooKeeper\t61

5.4.2 在master节点上配置

ZooKeeper文件参数\t61

5.4.3 分发ZooKeeper给slave1节点

和slave2节点\t62

5.5 Hadoop HA集群的文件参数\t64

5.5.1 在master节点上配置

Hadoop HA集群的文件参数\t64

5.5.2 分发hadoop相关文件给

slave1节点和slave2节点\t68

5.6 JournalNode服务\t69

5.6.1 JournalNode服务的原理\t69

5.6.2 启动JournalNode服务\t70

5.7 本章小结\t70

第6章 Hadoop HA集群的启动\t71

6.1 HDFS的格式化\t71

6.1.1 active NameNode的格式化

和启动\t71

6.1.2 standby NameNode的格式化

和启动\t72

6.1.3 格式化ZKFC\t73

6.2 Hadoop HA集群的启动流程\t73

6.2.1 启动HDFS\t73

6.2.2 启动YARN\t74

6.2.3 启动MapReduce的

历史服务器\t75

6.3 启动后验证\t75

6.3.1 查看进程\t75

6.3.2 查看端口\t76

6.3.3 运行测试\t77

6.4 Hadoop HA集群的主备切换\t78

6.4.1 Hadoop HA集群的切换

机制\t78

6.4.2 手动切换测试\t79

6.4.3 自动切换测试\t79

6.5 本章小结\t81

第三部分 大数据组件的维护

第7章 HBase组件的维护\t84

7.1 NoSQL与传统RDBMS的

差异\t84

7.1.1 传统RDBMS及其

应用场景\t84

7.1.2 NoSQL简介\t85

7.2 HBase组件的原理\t86

7.2.1 HBase简介\t86

7.2.2 HBase的体系结构\t86

7.3 HBase的分布式部署\t87

7.3.1 HBase集群环境准备\t87

7.3.2 HBase的分布式安装\t88

7.4 HBase库/表管理\t90

7.4.1 HBase库管理\t90

7.4.2 HBase表管理\t91

7.5 HBase数据操作\t93

7.5.1 基础操作\t93

7.5.2 模糊查询\t94

7.5.3 批量导入/导出\t95

7.6 HBase错误恢复\t97

7.7 退出HBase库\t98

7.8 卸载HBase库\t98

7.9 本章小结\t98

第8章 Hive组件的维护\t99

8.1 Hive的架构\t99

8.1.1 Hive简介\t99

8.1.2 Hive的数据类型\t100

8.2 分布式部署Hive\t101

8.2.1 环境需求\t101

8.2.2 MySQL的安装与启动\t102

8.2.3 配置Hive参数\t103

8.2.4 Beeline CLI远程访问Hive\t105

8.3 Hive库操作\t106

8.4 Hive表操作\t107

8.4.1 创建表\t107

8.4.2 查看与修改表\t108

8.4.3 删除表和退出Hive\t108

8.5 Hive数据操作\t109

8.5.1 数据导入\t109

8.5.2 查询\t110

8.6 Hive宕机恢复\t111

8.6.1 数据备份\t111

8.6.2 基于HDFS的数据恢复\t112



8.6.3 基于MySQL元数据

生成表结构\t112

8.7 退出和卸载Hive组件\t115

8.7.1 退出Hive\t115

8.7.2 卸载Hive\t115

8.8 本章小结\t115

第9章 ZooKeeper组件的维护\t116

9.1 ZooKeeper基础\t116

9.1.1 ZooKeeper简介\t116

9.1.2 ZooKeeper中的重要概念\t117

9.2 ZooKeeper的功能及其优点

和局限性\t117

9.2.1 ZooKeeper的功能\t117

9.2.2 ZooKeeper的优点\t118

9.2.3 ZooKeeper的局限性\t118

9.3 ZooKeeper的架构\t118

9.4 ZooKeeper仲裁模式\t119

9.5 配置ZooKeeper\t120

9.6 配置ZooKeeper集群\t120

9.6.1 集群环境准备\t120

9.6.2 ZooKeeper集群的安装\t121

9.7 Zookeeper集群的决策选举\t122

9.8 ZooKeeper组件管理\t123

9.8.1 JMX管理框架\t123

9.8.2 ZooKeeper Shell操作\t125

9.9 本章小结\t127

第10章 ETL组件的维护\t128

10.1 Sqoop概述与架构\t128

10.1.1 Sqoop概述\t128

10.1.2 Sqoop的架构\t129

10.2 Flume概述与架构\t130

10.2.1 Flume概述\t130

10.2.2 Flume的架构\t130

10.3 Kafka概述与架构\t131

10.3.1 Kafka概述\t131

10.3.2 Kafka的架构\t132

10.4 Sqoop导入数据\t133

10.5 Sqoop导出数据\t134

10.6 修改控制Sqoop组件的

参数\t134

10.7 Flume组件代理配置\t136

10.8 Flume组件的数据获取\t137

10.9 Flume组件管理\t137

10.10 Kafka组件的部署\t138

10.11 Kafka组件的验证部署\t139

10.12 Kafka组件的数据处理\t140

10.13 本章小结\t141

第11章 Spark组件的维护\t142

11.1 Spark概述与架构\t142

11.1.1 Spark概述\t142

11.1.2 Spark的架构\t144

11.2 Spark的工作原理\t146

11.3 Scala的安装部署\t148

11.3.1 Scala简介\t148

11.3.2 Scala的安装\t148

11.4 安装Spark\t149

11.4.1 Spark模式介绍\t149

11.4.2 Spark的安装部署\t151

11.5 修改Spark参数\t154

11.5.1 Spark属性\t154

11.5.2 环境变量\t155

11.5.3 Spark日志\t156

11.5.4 覆盖配置\t156

11.6 Spark Shell编程\t156

11.6.1 Spark Shell概述\t156

11.6.2 Spark Shell操作\t156

11.7 Spark的基本管理\t158

11.8 本章小结\t160

第四部分 大数据平台优化

第12章 Linux系统优化\t162

12.1 Linux系统优化工具\t162

12.1.1 free命令\t162

12.1.2 top命令\t163

12.2 优化Linux系统的内存\t164

12.2.1 将hadoop用户添加到

sudo组中\t164
<b

推荐

车牌查询
桂ICP备20004708号-3