[套装书]高效使用Greenplum:入门、进阶与数据中台+Greenplum:从大数据战略到实现(2册)

作者
王春波 等
丛书名
出版社
机械工业出版社
ISBN
9782112151720
简要
简介
内容简介书籍计算机书籍 ---------------------------8084941 - 高效使用Greenplum:入门、进阶与数据中台--------------------------- 内容简介 这不仅是一本从原理到使用、从入门到进阶讲解Greenplum的著作,而且是一本指导企业用更省钱、更高效地方式使用Greenplum构建企业级数据仓库和数据中台的著作。 作者在数据架构和数据仓库一线工作10余年,积累了丰富的项目经验,他用浅显易懂的语言、贴近生产环境的案例、丰富的示意图例写作了本书,能帮助读者快速掌握具有实战价值的知识。 具体地,阅读本书你将收获如下内容: ?掌握数据仓库技术的发展历程和发展方向; ?理解MPP架构的架构特点和实现逻辑; ?Greenplum数据库的安装和基本操作; ?Greenplum数据库的工作原理; ?SQL语句从入门到开发实战; ?Greenplum数据库ETL相关功能的具体用途; ?机器学习、文本处理、图计算、GIS等的入门知识; ?掌握Greenplum数据库的运维和监控要点; ?全面掌握Greenplum数据库的性能优化; ?数据中台的理念和建设路径; . ?数据中台从接口到智能化应用的项目实战; ?零售行业数据中台的项目实战案例。 ---------------------------8062188 - Greenplum:从大数据战略到实现--------------------------- 大数据已经从概念变成广泛落地的现实,并且对传统企业产生越来越大的影响。本书从大数据、人工智能、云计算三者的关系谈起,论述了企业制订大数据战略的原则、方法、技术平台的选择、实施、运维与管理的方方面面,并辅以成功案例,全方位展示了大数据在企业的应用。
目录
[套装书具体书目]
8062188 - Greenplum:从大数据战略到实现 - 9787111632160 - 机械工业出版社 - 定价 119
8084941 - 高效使用Greenplum:入门、进阶与数据中台 - 9787111696490 - 机械工业出版社 - 定价 109



---------------------------8084941 - 高效使用Greenplum:入门、进阶与数据中台---------------------------


序一
序二
序三
前言
第一部分 大数据平台概述
第1章 大数据平台技术的演进2
1.1 关系型数据库2
1.1.1 数据库发展历程2
1.1.2 关系型数据库独霸天下4
1.1.3 结构化查询语言SQL4
1.1.4 列存储的兴起5
1.2 Hadoop生态系统7
1.2.1 Hadoop概述7
1.2.2 Hadoop生态圈7
1.2.3 Hadoop的优缺点9
1.3 NoSQL的瓶颈和SQL数据库的回归10
1.3.1 NoSQL产品的发展10
1.3.2 NoSQL的共性11
1.3.3 SQL数据库的回归12
1.4 MPP架构的兴起14
1.4.1 什么是MPP架构14
1.4.2 MPP架构的蓬勃发展15
1.4.3 MPP数据库代表—TBase17
1.4.4 浅谈HTAP19
第二部分 Greenplum入门
第2章 Greenplum概述24
2.1 Greenplum的前世今生24
2.2 Greenplum数据库架构27
2.3 Greenplum数据库的特点28
2.4 Greenplum新特性及展望30
2.5 Greenplum的优势32
第3章 Greenplum的安装与部署35
3.1 Greenplum数据库安装过程35
3.1.1 准备工作35
3.1.2 安装Master节点39
3.1.3 复制安装包到其他节点41
3.1.4 初始化Greenplum数据库42
3.2 安装GPCC43
3.3 Greenplum访问接口46
3.3.1 CLI46
3.3.2 JDBC47
3.3.3 ODBC48
3.4 Greenplum数据库常用命令48
3.4.1 启动和停止48
3.4.2 修改参数49
3.4.3 其他常用命令51
3.5 Greenplum性能测试52
第4章 Greenplum使用入门54
4.1 数据类型详解54
4.1.1 基本数据类型54
4.1.2 特殊数据类型56
4.1.3 组合数据类型60
4.2 数据表的基本使用62
4.2.1 表对象定义62
4.2.2 表的基本操作63
4.2.3 数据的基本操作64
4.3 数据表的高级应用65
4.3.1 数据表的存储特性69
4.3.2 分区表详解72
4.3.3 外部表76
4.4 数据库函数79
4.4.1 数学函数79
4.4.2 三角函数列表80
4.4.3 字符串函数和操作符80
4.4.4 类型转换相关函数82
4.4.5 自定义函数83
4.5 数据库的其他对象85
4.5.1 视图85
4.5.2 索引85
4.5.3 序列87
第三部分 Greenplum应用
第5章 Greenplum查询详解90
5.1 SQL语法92
5.1.1 简单SQL语法92
5.1.2 WITH子句特性95
5.1.3 IN语句和EXISTS语句98
5.1.4 MERGE子句的实现100
5.2 JOIN操作101
5.3 分析函数的妙用106
5.4 高级函数精选110
第6章 ETL工具箱114
6.1 数据加载王者GPLoad114
6.1.1 GPLoad简介114
6.1.2 GPLoad配置详解116
6.1.3 GPLoad实战118
6.2 自定义存储过程120
6.2.1 存储过程介绍 120
6.2.2 存储过程应用模板121
6.2.3 存储过程精选案例122
6.3 PXF插件131
6.3.1 PXF简介131
6.3.2 安装PXF132
6.3.3 PXF实战135
6.4 DBLink136
6.4.1 DBLink简介136
6.4.2 安装DBLink137
6.4.3 DBlink实战139
6.5 拉链表142
第7章 Greenplum高级应用147
7.1 开放的编程接口147
7.1.1 PL/Python148
7.1.2 PL/R150
7.2 MADlib机器学习库153
7.2.1 安装MADlib154
7.2.2 线性回归案例157
7.2.3 关联规则案例158
7.2.4 朴素贝叶斯分类案例159
7.3 半结构化数据分析164
7.4 地理空间数据分析166
7.5 图计算应用168
第8章 Greenplum运维管理和监控172
8.1 数据库管理172
8.1.1 创建和管理数据库172
8.1.2 创建和管理模式173
8.1.3 创建和管理表空间175
8.1.4 创建和管理用户178
8.1.5 创建和管理资源队列180
8.2 可视化监控页面—GPCC183
8.3 管理好帮手—gp_toolkit185
8.4 Greenplum备份和恢复187
8.5 在线扩容工具GPExpand189
8.5.1 Greenplum扩容实战189
8.5.2 扩容原理分析191
8.6 锁机制192
8.6.1 锁管理概述192
8.6.2 普通锁数据结构192
第9章 Greenplum性能优化197
9.1 系统级优化197
9.1.1 操作系统选择197
9.1.2 硬件资源配置198
9.1.3 磁盘读写199
9.1.4 节点之间的网络带宽202
9.1.5 系统参数202
9.2 数据库级优化204
9.2.1 数据库参数配置204
9.2.2 资源队列206
9.3 表级优化206
9.3.1 建表参数207
9.3.2 表的优化208
9.4 执行计划和查询优化209
9.4.1 查看执行计划210
9.4.2 数据扫描方式210
9.4.3 分布式执行方式213
9.4.4 两种聚合方式214
9.4.5 关联分类214
9.4.6 优化器的选择216
9.4.7 其他关键术语217
第10章 Greenplum与开源组件220
10.1 Kettle220
10.2 DataX224
10.3 HDFS、Hive和HBase228
10.4 Spark230
10.5 Kafka235
10.6 Flink238
第11章 Greenplum与BI应用244
11.1 Tableau244
11.1.1 Tableau连接Greenplum245
11.1.2 Tableau最佳实践要点245
11.2 永洪BI248
11.3 帆软BI250
11.4 DataV253
11.5 Quick BI253
第四部分 数据中台实战
第12章 数据中台建设思路256
12.1 为什么要搭建数据中台256
12.2 什么是数据中台258
12.3 如何搭建数据中台259
12.3.1 数据资产盘点和规划259
12.3.2 数据应用规划与设计260
12.3.3 数据平台选型与建设261
12.3.4 数据应用设计与实现262
12.3.5 组织架构调整与流程变革262
12.4 数据中台怎么选型263
12.4.1 数据仓库选型263
12.4.2 ETL工具选型265
12.4.3 调度平台选型266
12.4.4 BI工具选型268
第13章 接口数据同步270
13.1 全量接口同步270
13.2 增量接口同步276
13.3 流式数据同步281
13.4 日志流数据同步283
第14章 数据建模285
14.1 数据建模思想285
14.1.1 Inmon企业信息化工厂286
14.1.2 Kimball的维度数据仓库287
14.1.3 两种建模体系的对比288
14.2 数据分层设计288
14.2.1 操作数据存储层289
14.2.2 数据仓库层290
14.2.3 数据集市层292
14.3 数据分层实战案例293
14.3.1 ODS层293
14.3.2 DWD层293
14.3.3 DWB层297
14.3.4 DWS层299
14.3.5 ADS层307
14.4 数据中台命名规范311
14.4.1 数据库表命名312
14.4.2 数据库字段命名312
14.4.3 脚本命名规范313
第15章 数据中台主要配套功能314
15.1 数据权限管理314
15.2 数据补录319
15.3 BI门户320
15.4 元数据管理323
15.5 指标管理324
第16章 数据中台数据应用328
16.1 商业智能328
16.2 自助分析平台331
16.3 数据服务332
16.4 标签平台335
16.5 推荐系统338
第17章 基于Greenplum的数据中台实践案例342
17.1 项目背景342
17.2 项目需求343
17.3 项目技术实现344
17.3.1 系统架构344
17.3.2 系统ETL分层345
17.3.3 系统调度任务346
17.4 智能数据应用347
17.4.1 自助分析应用348
17.4.2 固定报表349
17.4.3 可视化大屏350
17.4.4 钉钉数据服务351
17.5 典型技术方案分享352
17.5.1 准实时需求实现方案352
17.5.2 数据库优化方案353
17.5.3 数据权限控制方案355
17.5.4 历史数据离线存储方案358
17.5.5 系统备份方案358
17.6 典型业务方案分享359
17.6.1 零售指标同期分析359
17.6.2 零售指标节假日对比分析361
17.6.3 在库库存362
17.6.4 在途库存363
17.6.5 售罄率365
17.6.6 齐码率368
17.7 项目总结370



---------------------------8062188 - Greenplum:从大数据战略到实现---------------------------



前 言
第一部分 大数据战略
第1章 ABC:人工智能、大数据和云计算 2
1.1 再谈云计算 2
1.1.1 云计算由南向转为北向 2
1.1.2 P层云的精细化发展 3
1.1.3 大数据系统在云中部署不断朝南上移 4
1.2 大数据 5
1.2.1 从CRUD到CRAP 5
1.2.2 MPP(大规模并行计算) 7
1.2.3 大数据系统 8
1.2.4 当大数据遇到云计算 10
1.3 人工智能 11
1.3.1 模型化方法 12
1.3.2 AI的发展史 14
1.3.3 对AI应用的正确预期 15
1.4 ABC之间的关系 16
1.5 AI和人 18
1.5.1 经验与逻辑 18
1.5.2 公理化的逻辑系统 21
1.5.3 图灵机和可计算数 25
1.5.4 认知边界上的考量 28
第2章 建立基于大数据的高阶数字化战略 32
2.1 基于云原生应用的数字化战略 32
2.2 大数据和AI:企业未来的终极
竞争点 34
2.3 大数据战略的落地 36
2.3.1 大数据和AI人才 36
2.3.2 AI驱动的开发方法和文化 37
2.3.3 大数据基础设施的建设 39
2.4 大数据和AI的展望 41
第二部分 大数据平台
第3章 数据处理平台的演进 45
3.1 前数据处理时代 45
3.2 早期的电子数据处理 47
3.2.1 电子计算机的出现 47
3.2.2 软件 47
3.3 数据库 49
3.3.1 数据模型 50
3.3.2 数据独立性和高级数据处理语言 54
3.3.3 数据保护 57
3.3.4 数据库早期发展过程中的困境 57
3.4 NoSQL数据库 58
3.4.1 NoSQL出现的背景 58
3.4.2 NoSQL产品的共性 60
3.4.3 NoSQL的分类 61
3.5 SQL数据库的回归 62
3.5.1 NoSQL与SQL的融合 62
3.5.2 Hadoop不等于大数据 63
3.5.3 SQL从未离开 64
3.6 集成数据处理和分析平台 65
3.6.1 数据类型 65
3.6.2 业务场景 66
3.6.3 集中还是分散 67
3.7 数据平台的选型 68
3.8 小结 69
第4章 Greenplum数据库快速入门 72
4.1 Greenplum数据库的发展和现状 72
4.2 Greenplum数据库的特性 73
4.3 Greenplum数据库的组成 75
4.4 Greenplum数据库的安装与部署 76
4.4.1 准备工作 76
4.4.2 安装Greenplum 77
4.4.3 初始化Greenplum数据库 80
4.5 Greenplum数据库的常用操作 82
4.6 Greenplum数据库的常用命令 83
4.6.1 gpstart 83
4.6.2 gpstop 83
4.6.3 gpstate 83
4.6.4 gpactivatestandby 84
4.6.5 gpconfig 84
4.6.6 gpdeletesystem 84
4.7 小结 85
第5章 Greenplum的架构和核心引擎 86
5.1 Greenplum的架构 86
5.1.1 Greenplum Master 87
5.1.2 Greenplum Segment 87
5.1.3 Greenplum Interconnect 87
5.1.4 Greenplum Standby Master 87
5.1.5 Greenplum Mirror Segment 88
5.2 Greenplum查询计划 88
5.2.1 单机查询计划 89
5.2.2 并行查询计划 90
5.3 Greenplum数据库查询处理的过程 95
5.3.1 Greenplum数据库的主要功能组件 95
5.3.2 Greenplum数据库查询的执行流程 96
5.4 小结 97
第6章 从ETL到数据联邦和数据虚拟化 98
6.1 Greenplum中的ETL 99
6.1.1 PostgreSQL的ETL工具箱 99
6.1.2 GPLOAD 100
6.2 Greenplum的数据联邦 104
6.2.1 dblink简介 104
6.2.2 外部表 107
6.2.3 GPFDIST外部表 109
6.2.4 可执行外部表 119
6.2.5 Greenplum的S3外部表 120
6.2.6 GPHDFS外部表 127
6.2.7 Spark连接器 129
6.2.8 Gemfire连接器 129
6.3 Greenplum的数据虚拟化框架 130
6.3.1 PXF的架构 130
6.3.2 PXF的环境配置 131
6.3.3 GPHDFS与PXF比较 132
6.4 小结 133
第7章 混合负载和资源管理 134
7.1 混合负载的机遇和挑战 134
7.2 混合负载的业务和技术要求 136
7.3 资源管理 139
7.4 并发管理 145
7.5 小结 146
第三部分 机器学习与数据分析
第8章 Greenplum中的过程化编程语言 149
8.1 PL/Python 150
8.1.1 PL/Python简介 150
8.1.2 受信任的过程化编程语言 151
8.1.3 安装Python包 152
8.1.4 安装Greenplum数据计算Python包集合 153
8.1.5 类型转换 153
8.1.6 PL/Python函数中的数据共享 154
8.2 PL/R 155
8.2.1 PL/R简介 156
8.2.2 安装R包 158
8.2.3 安装Greenplum数据计算R包集合 158
8.3 PL/Container 158
8.3.1 PL/Container简介 159
8.3.2 一个简单的例子 159
8.3.3 PL/Container的基本操作方法 162
8.3.4 PL/Container实践总结 166
8.3.5 关于PL/Container的开发 167
8.4 小结 167
第9章 MADlib 机器学习库 168
9.1 MADlib入门 168
9.1.1 MADlib简介 168
9.1.2 MADlib的特点 169
9.1.3 MADlib与其他机器学习算法库的比较 172
9.1.4 MADlib的快速安装 173
9.2 MADlib的架构 174
9.2.1 SQL用户接口 174
9.2.2 Python驱动函数 175
9.2.3 C++机器学习算法实现 175
9.2.4 C++数据库抽象层 176
9.3 MADlib应用 177
9.3.1 数据预处理 177
9.3.2 监督学习 178
9.3.3 非监督学习 184
9.3.4 时间序列 187
9.3.5 自定义机器学习算法 188
9.4 小结 191
第10章 Greenplum半结构化文本数据分析 192
10.1 GPText文本分析概述 192
10.1.1 GPText数据提取 192
10.1.2 GPText的文本处理、索引流程和高阶分析 193
10.2 GPText内置的全文检索引擎:Apache SolrCloud 194
10.3 GPText架构:高速并行索引和查询 195
10.4 数据准备 197
10.5 GPText的使用:简单的SQL和UDF函数 198
10.6 GPText的安装 200
10.7 GPText索引 201
10.7.1 创建GPText索引 201
10.7.2 加载GPText索引 204
10.7.3 GPText 增减索引列 205
10.8 GPText简单查询 205
10.8.1 GPText 查询的语法 205
10.8.2 GPText 临近查询 206
10.8.3 GPText top查询 206
10.9 GPText高级查询 207
10.9.1 GPText Facet 查询 207
10.9.2 GPText 高亮查询结果 209
10.10 GPText分区表查询 210
10.11 GPText对自然语言处理的支持 211
10.12 GPText定制化索引 213
10.13 GPText管理工具 214
10.14 GPText用于文本挖掘和分析 215
10.15 小结 216
第11章 地理空间数据分析和处理 218
11.1 概述 218
11.1.1 什么是地理空间数据 218
11.1.2 地理空间数据应用与分析中的挑战 220
11.2 Greenplum PostGIS 223
11.2.1 Greenplum PostGIS 简介 223
11.2.2 安装Greenplum PostGIS 组件 224
11.2.3 第一次使用 227
11.3 Greenplum PostGIS应用实例 228
11.3.1 GIS数据准备 228
11.3.2 使用Greenplum PostGIS空间数据操作符进行GIS数据查询 230
11.3.3 使用Greenplum PostGIS的UDF进行GIS数据分析 233
11.3.4 栅格数据 235
11.4 小结 239
第12章 Greenplum数据库与图计算 240
12.1 图的概念 240
12.2 图的应用 241
12.2.1 电子电路设计自动化 241
12.2.2 搜索引擎 242
12.2.3 社交网络 242
12.3 图数据的处理 243
12.4 Greenplum对图数据的支持 244
12.5 MADlib中的图结构和算法 245
12.5.1 图的表示 245
12.5.2 MADlib支持的图算法 245
12.5.3 MADlib图算法详解 246
12.6 小结 277
第四部分 Greenplum的运维和迁移
第13章 Greenplum的监控和管理 281
13.1 监控Greenplum集群的状态 282
13.1.1 gpstate命令 282
13.1.2 系统表gp_segment_configuration 283
13.1.3 Segment的故障恢复和再平衡 284
13.1.4 常用的监控命令 287
13.2 管理Greenplum集群 289
13.2.1 参数配置 289
13.2.2 访问管理 290
13.2.3 统计信息 292
13.2.4 管理表膨胀 294
13.3 Greenplum指令中心(GPCC) 297
13.3.1 GPCC简介 297
13.3.2 可视化监控 298
13.3.3 查询监控和分析 301
13.3.4 工作负载管理 305
13.3.5 监控告警系统 307
13.4 小结 309
第14章 Greenplum数据库的备份、恢复和迁移 310
14.1 非并行数据库备份 310
14.2 非并行数据库恢复 313
14.3 并行数据库备份 313
14.4 并行数据库恢复 316
14.5 高效的并行数据库备份和恢复工具gpbackup/gprestore 317
14.6 新一代Greenplum数据迁移工具GPCOPY 322
14.7 小结 324
第15章 从Oracle迁移到Greenplum 326
15.1 概述 326
15.2 Oracle与Greenplum的架构对比 327
15.2.1 Oracle的主要痛点 329
15.2.2 Greenplum的优势 330
15.3 从Oracle迁移到Greenplum的流程 331
15.3.1 迁移场景 332
15.3.2 迁移过程 334
15.3.3 特殊场景分析 344
15.4 小结 352
第16章 从Teradata迁移到Greenplum 353
16.1 Teradata产品和用户面临的问题 353
16.2 从Teradata迁移到Greenplum的可行性 354
16.3 如何从Teradata迁移到Greenplum 356
16.3.1 迁移流程概述 356
16.3.2 Teradata数据卸载及DDL导出规范 357
16.3.3 数据操作语句转换 364
16.3.4 函数转换 367
16.3.5 ETL应用工具连接转换 369
16.3.6 其他应用接口迁移 372
16.4 特殊场景 373
16.4.1 事前微批去重 373
16.4.2 事后批量去重 374
16.5 小结 374
附录A Greenplum社区 375
附录B 外部表实例 380
附录C Greenplum的SSL证书 386
术语表 390

推荐

车牌查询
桂ICP备20004708号-3