智能运维:从0搭建大规模分布式AIOps系统

作者
彭冬
丛书名
出版社
电子工业出版社
ISBN
9787121346637
简要
简介
内容简介书籍计算机书籍 本书将全面完整地介绍智能运维的技术体系,以及大企业的智能运维实践经验,让读者更加了解运维技术的现状和发展方向,在实践中能够有所借鉴。同时,也能帮助运维工程师在一定程度上了解到机器学习的常见算法模型,以及如何将它们应用到运维工作中。全书共分4篇。第1篇运维发展史,将重点阐述当前运维的发展现状及面临的技术挑战;第2篇智能运维基础设施,将重点讲述大数据场景下的数据存储、大数据处理和分析的方法与经验,以及海量数据多维度多指标的处理分析技术;第3篇智能运维技术详解,将重点关注在新时期大数据时代下,如何进行智能化的运维体系建设;第4篇技术案例详解,为大家梳理了通过开源框架ELK快速构建智能监控系统的整体方案,还将分享微博平台和微博广告两个不同业务场景下智能监控系统的技术实践。
目录

第1篇 开门见山:运维发展史
第1章 运维现状\t2
1.1 运维工程\t2
1.1.1 认识运维\t2
1.1.2 主要职责\t4
1.1.3 运维技术\t5
1.2 运维发展历程\t6
1.2.1 人工阶段\t6
1.2.2 工具和自动化阶段\t7
1.2.3 平台化阶段\t7
1.2.4 智能运维阶段\t8
1.3 运维现状\t9
1.3.1 故障频发\t9
1.3.2 系统复杂性\t10
1.3.3 大数据环境\t12
1.4 本章小结\t14
1.5 参考文献\t14
第2章 智能运维\t15
2.1 海量数据的存储、分析和处理\t16
2.2 多维度、多数据源\t18
2.3 信息过载\t19
2.4 复杂业务模型下的故障定位\t21
2.5 本章小结\t22
2.6 参考文献\t22
第2篇 站在巨人肩上:智能运维基础设施
第3章 开源数据采集技术\t25
3.1 数据采集工具对比\t25
3.2 轻量级采集工具Filebeat\t26
3.2.1 Filebeat工作原理\t26
3.2.2 Filebeat的安装与配置\t28
3.2.3 启动和运行Filebeat\t38
3.3 日志采集解析工具\t38
3.3.1 Logstash工作原理\t39
3.3.2 安装Logstash\t40
3.3.3 配置Logstash\t41
3.3.4 启动Logstash\t49
3.4 本章小结\t49
3.5 参考文献\t50
第4章 分布式消息队列\t51
4.1 开源消息队列对比与分析\t51
4.1.1 概述\t51
4.1.2 ZeroMQ\t51
4.1.3 ActiveMQ\t52
4.1.4 RocketMQ\t52
4.1.5 Kafka\t53
4.2 Kafka安装与使用\t53
4.2.1 组件概念\t53
4.2.2 基本特性\t53
4.2.3 安装与使用\t54
4.2.4 Java API使用\t55
4.3 案例分析\t57
4.3.1 日志采集\t58
4.3.2 实时结算\t58
4.3.3 实时计算\t58
4.4 本章小结\t58
4.5 参考文献\t59
第5章 大数据存储技术\t60
5.1 传统数据存储\t60
5.1.1 传统应用的架构\t60
5.1.2 传统存储的运行机制\t61
5.1.3 传统存储带来的问题\t62
5.2 基于HDFS的分布式存储\t63
5.2.1 分布式存储的定义\t63
5.2.2 HDFS的基本原理\t64
5.2.3 HDFS架构解析\t65
5.2.4 HDFS优势\t66
5.2.5 HDFS不适合的场景\t67
5.3 分层存储\t68
5.3.1 数据仓库\t68
5.3.2 数据仓库分层架构\t70
5.3.3 分层存储的好处\t73
5.4 案例分析\t73
5.4.1 数据存储架构\t73
5.4.2 数据仓库建模\t74
5.4.3 常见的存储问题及解决方案\t80
5.5 本章小结\t80
5.6 参考文献\t80
第6章 大规模数据离线计算分析\t82
6.1 经典的离线计算\t82
6.1.1 Linux神级工具sed和awk\t82
6.1.2 Python数据处理Pandas基础\t84
6.1.3 Python的优势和不足\t88
6.2 分布式离线计算\t89
6.2.1 MapReduce离线计算\t89
6.2.2 离线计算的数据倾斜问题\t97
6.2.3 分布式离线计算的技术栈\t100
6.3 案例分析\t101
6.3.1 离线计算管理\t102
6.3.2 离线计算原子控制\t103
6.3.3 离线计算的数据质量\t103
6.4 本章小结\t104
6.5 参考文献\t105
第7章 实时计算框架\t106
7.1 关于实时流计算\t106
7.1.1 如何提高实时流计算的实时性\t106
7.1.2 如何提高实时流计算结果的准确性\t107
7.1.3 如何提高实时流计算结果的响应速度\t107
7.2 Spark Streaming计算框架介绍\t107
7.2.1 概述\t107
7.2.2 基本概念\t108
7.2.3 运行原理\t108
7.2.4 编程模型\t109
7.2.5 Spark Streaming的使用\t110
7.2.6 优化运行时间\t114
7.3 Flink计算框架\t115
7.3.1 基本概念\t116
7.3.2 Flink特点\t116
7.3.3 运行原理\t118
7.3.4 Java API的使用\t121
7.4 案例分析\t124
7.4.1 背景介绍\t125
7.4.2 架构设计\t126
7.4.3 效果分析\t126
7.5 本章小结\t126
7.6 参考文献\t126
第8章 时序数据分析框架\t127
8.1 时序数据库简介\t127
8.1.1 什么是时序数据库\t127
8.1.2 时序数据库的特点\t128
8.1.3 时序数据库对比\t130
8.2 时序数据库Graphite\t131
8.2.1 Graphite简介\t131
8.2.2 Graphite在微博广告监控系统中的应用\t137
8.3 多维分析利器Druid\t139
8.3.1 什么是Druid\t139
8.3.2 Druid架构\t140
8.3.3 Druid在微博广告监控平台中的应用\t144
8.4 性能神器ClickHouse\t147
8.4.1 什么是ClickHouse\t147
8.4.2 ClickHouse的特性\t148
8.4.3 ClickHouse的不足\t149
8.4.4 安装配置ClickHouse\t149
8.4.5 表引擎\t153
8.4.6 函数支持\t157
8.5 本章小结\t160
8.6 参考文献\t160
第9章 机器学习框架\t161
9.1 简介\t161
9.2 TensorFlow介绍\t162
9.2.1 什么是TensorFlow\t162
9.2.2 下载安装\t162
9.2.3 Hello TensorFlow”示例\t166
9.3 TensorFlow进阶\t166
9.3.1 基础理论\t167
9.3.2 模型准备\t169
9.3.3 训练数据\t169
9.3.4 模型训练\t171
9.3.5 生成seq2seq句子\t174
9.3.6 运行演示\t175
9.4 本章小结\t178
9.5 参考文献\t179
第3篇 运维新时代:智能运维技术详解
第10章 数据聚合与关联技术\t182
10.1 数据聚合\t182
10.1.1 聚合运算\t183
10.1.2 多维度聚合\t186
10.2 降低维度\t188
10.2.1 将告警聚合成关联事件”\t189
10.2.2 减少误报:告警分类\t190
10.3 数据关联\t192
10.4 实时数据关联案例\t193
10.4.1 设计方案\t193
10.4.2 效果\t195
10.5 本章小结\t195
10.6 参考文献\t195
第11章 数据异常点检测技术\t196
11.1 概述\t196
11.2 异常检测方法\t198
11.2.1 基于统计模型的异常点检测\t199
11.2.2 基于邻近度的异常点检测\t202
11.2.3 基于密度的异常点检测\t203
11.3 独立森林\t204
11.4 本章小结\t207
11.5 参考文献\t207
第12章 故障诊断和分析策略\t208
12.1 日志标准化\t209
12.2 全链路追踪\t210
12.3 SLA的统一\t210
12.4 传统的故障定位方法\t211
12.4.1 监控告警型\t211
12.4.2 日志分析型\t212
12.5 人工智能在故障定位领域的应用\t213
12.5.1 基于关联规则的相关性分析\t213
12.5.2 基于决策树的故障诊断\t217
12.6 本章小结\t222
12.7 参考文献\t222
第13章 趋势预测算法\t223
13.1 移动平均法\t223
13.2 指数平滑法\t224
13.3 ARIMA模型\t226
13.3.1 简介\t226
13.3.2 重要概念\t226
13.3.3 参数解释\t228
13.3.4 建模步骤\t230
13.3.5 ARIMA模型案例\t232
13.4 神经网络模型\t236
13.4.1 卷积神经网络\t236
13.4.2 循环神经网络\t238
13.4.3 长短期记忆网络\t239
13.4.4 应用说明\t241
13.5 本章小结\t241
13.6 参考文献\t242
第4篇 智能运维架构实践:技术案例详解
第14章 快速构建日志监控系统\t244
14.1 Elasticsearch分布式搜索引擎\t244
14.1.1 基本概念\t244
14.1.2 分布式文档存储与读取\t248
14.1.3 分布式文档检索\t250
14.1.4 分片管理\t252
14.1.5 路由策略\t254
14.1.6 映射\t255
14.2 可视化工具Kibana\t258
14.2.1 Management\t260
14.2.2 Discover\t260
14.2.3 Visualize\t262
14.2.4 Dashboard\t263
14.2.5 Timelion\t263
14.2.6 Dev Tools\t264
14.3 ELK搭建实践\t264
14.3.1 Logstash安装配置\t264
14.3.2 Elasticsearch集群安装配置\t266
14.3.3 Kibana安装配置\t272
14.4 本章小结\t274
14.5 参考文献\t274
第15章 微博广告智能监控系统\t275
15.1 背景介绍\t275
15.1.1 监控指标体系\t275
15.1.2 功能设计原则\t276
15.2 整体架构\t277
15.3 核心功能分析\t278
15.3.1 全景监控\t278
15.3.2 趋势预测\t281
15.3.3 动态阈值\t285
15.3.4 服务治理\t285
15.4 本章小结\t288
第16章 微博平台通用监控系统\t289
16.1 背景\t290
16.2 整体架构\t291
16.3 核心模块\t292
16.3.1 数据采集(Logtailer)\t292
16.3.2 数据路由(Statsd-proxy)\t295
16.3.3 聚合运算(Statsd)\t295
16.3.4 数据分发(C-Relay)和数据存储\t295
16.3.5 告警模块\t297
16.3.6 API设计\t300
16.3.7 数据可视化\t301
16.4 第三方应用\t302
16.4.1 决策支持系统\t302
16.4.2 运维自动化\t303
16.4.3 成本分析和容量日报\t303
16.4.4 机器学习\t303
16.5 本章小节\t303
附录A 中国大数据技术大会2017(BDTC 2017)CSDN专访实录\t305

推荐

车牌查询
桂ICP备20004708号-3