| 作者 |
| 吕云翔、钟巧灵、张璐、王佳玮 |
| 丛书名 |
| 大数据与人工智能技术丛书 |
| 出版社 |
| 清华大学出版社 |
| ISBN |
| 9787302501466 |
| 简要 |
| 简介 |
| 内容简介 本书在阐述云计算和大数据关系的基础上,介绍了云计算和大数据的基本概念、技术及应用。全书内容如下: 第1~4章讲述云计算的概念和原理,包括云计算的概论、基础、虚拟化、应用; 第5~8章讲述大数据概述及基础,包括大数据概念和发展背景、大数据系统架构概述、分布式通信与协同、大数据存储; 第9~13章讲述大数据处理,包括分布式处理、Hadoop MapReduce解析、Spark解析、流计算、集群资源管理与调度; 第14章讲述综合实践(在OpenStack平台上搭建Hadoop并进行数据分析)。 本书结合实际应用及实践过程来讲解相关概念、原理和技术,实用性较强。适合作为本科院校计算机、云计算、大数据及信息管理等相关专业的教材,也适合计算机爱好者阅读和参考。 |
| 目录 |
第1章云计算概论 1.1什么是云计算 1.2云计算的产生背景 1.3云计算的发展历史 1.4如何学好云计算 习题 第2章云计算基础 2.1分布式计算 2.2云计算的基本概念 2.3云计算的关键技术 2.3.1分布式海量数据存储 2.3.2虚拟化技术 2.3.3云平台技术 2.3.4并行编程技术 2.3.5数据管理技术 2.4云交付模型 2.4.1软件即服务 2.4.2平台即服务 2.4.3基础设施即服务 2.4.4基本云交付模型的比较 2.4.5容器即服务 2.5云部署模式 2.5.1公有云 2.5.2私有云 2.5.3混合云 2.6云计算的优势与挑战 2.7典型云应用 2.7.1云存储 2.7.2云服务 2.7.3云物联 2.8云计算与大数据 习题 第3章虚拟化 3.1虚拟化简介 3.1.1什么是虚拟化 3.1.2虚拟化的发展历史 3.1.3虚拟化带来的好处 3.2虚拟化的分类 3.2.1服务器虚拟化 3.2.2网络虚拟化 3.2.3存储虚拟化 3.2.4应用虚拟化 3.2.5技术比较 3.3系统虚拟化 3.4虚拟化与云计算 3.5开源技术 3.5.1Xen 3.5.2KVM 3.5.3OpenVZ 3.6虚拟化未来发展趋势 习题 第4章云计算的应用 4.1概述 4.2Google公司的云计算平台与应用 4.2.1MapReduce分布式编程环境 4.2.2分布式大规模数据库管理系统BigTable 4.2.3Google的云应用 4.3亚马逊的弹性计算云 4.3.1开放的服务 4.3.2灵活的工作模式 4.3.3总结 4.4IBM蓝云云计算平台 4.4.1蓝云云计算平台中的虚拟化 4.4.2蓝云云计算平台中的存储结构 4.5清华大学透明计算平台 4.6阿里云 4.6.1阿里云简介 4.6.2阿里云的发展过程 4.6.3阿里云的主要产品 4.7Microsoft Azure 4.7.1Microsoft Azure简介 4.7.2Microsoft Azure架构 4.7.3Microsoft Azure服务平台 4.7.4开发步骤 习题 第5章大数据概念和发展背景 5.1什么是大数据 5.2大数据的特点 5.3大数据发展 5.4大数据应用 习题 第6章大数据系统架构概述 6.1总体架构概述 6.1.1总体架构设计原则 6.1.2总体架构参考模型 6.2运行架构概述 6.2.1物理架构 6.2.2集成架构 6.2.3安全架构 6.3主流大数据系统厂商 6.3.1Cloudera 6.3.2Hortonworks 6.3.3Amazon 6.3.4Google 6.3.5微软 6.3.6阿里云数加平台 习题 第7章分布式通信与协同 7.1数据编码传输 7.1.1数据编码概述 7.1.2LZSS算法 7.1.3Snappy压缩库 7.2分布式通信系统 7.2.1远程过程调用 7.2.2消息队列 7.2.3应用层多播通信 7.2.4Hadoop IPC应用 7.3分布式协同系统 7.3.1Chubby锁服务 7.3.2ZooKeeper 7.3.3ZooKeeper在HDFS高可用中使用 习题 第8章大数据存储 8.1大数据存储技术发展 8.2海量数据存储的关键技术 8.2.1数据分片与路由 8.2.2数据复制与一致性 8.3重要数据结构和算法 8.3.1Bloom Filter 8.3.2LSM树 8.3.3Merkle哈希树 8.3.4Cuckoo哈希 8.4分布式文件系统 8.4.1文件存储格式 8.4.2Google文件系统 8.4.3HDFS 8.5分布式数据库NoSQL 8.5.1NoSQL数据库概述 8.5.2KV数据库 8.5.3列式数据库 8.5.4图数据库 8.5.5文档数据库 8.6HBase数据库搭建与使用 8.6.1HBase伪分布式运行 8.6.2HBase分布式运行 8.7大数据存储技术趋势 习题 第9章分布式处理 9.1CPU多核和POSIX Thread 9.2MPI并行计算框架 9.3Hadoop MapReduce 9.4Spark 9.5数据处理技术发展 习题 第10章Hadoop MapReduce解析 10.1Hadoop MapReduce架构 10.2Hadoop MapReduce与高性能计算、网格计算的区别 10.3MapReduce工作机制 10.3.1Map 10.3.2Reduce 10.3.3Combine 10.3.4Shuffle 10.3.5Speculative Task 10.3.6任务容错 10.4应用案例 10.4.1WordCount 10.4.2WordMean 10.4.3Grep 10.5MapReduce的缺陷与不足 习题 第11章Spark解析 11.1Spark RDD 11.2Spark与MapReduce对比 11.3Spark工作机制 11.3.1DAG工作图 11.3.2Partition 11.3.3Lineage容错方法 11.3.4内存管理 11.3.5数据持久化 11.4数据读取 11.4.1HDFS 11.4.2Amazon S3 11.4.3HBase 11.5应用案例 11.5.1日志挖掘 11.5.2判别西瓜好坏 11.6Spark发展趋势 习题 第12章流计算 12.1流计算概述 12.2流计算与批处理系统对比 12.3Storm流计算系统 12.4Samza流计算系统 12.5集群日志文件实时分析 12.6流计算发展趋势 习题 第13章集群资源管理与调度 13.1集群资源统一管理系统 13.1.1集群资源管理概述 13.1.2Apache YARN 13.1.3Apache Mesos 13.1.4Google Omega 13.2资源管理模型 13.2.1基于slot的资源表示模型 13.2.2基于最大、最小公平原则的资源分配模型 13.3资源调度策略 13.3.1调度策略概述 13.3.2Capacity Scheduler调度 13.3.3Fair Scheduler调度 13.4YARN上运行计算框架 13.4.1MapReduce on YARN 13.4.2Spark on YARN 13.4.3YARN程序设计 习题 第14章综合实践: 在OpenStack平台上搭建Hadoop并进行数据分析 14.1OpenStack简介 14.2OpenStack的安装及配置 14.2.1OpenStack安装准备 14.2.2OpenStack在线安装 14.2.3搭建OpenStack中的虚拟机 14.3大数据环境安装 14.3.1Java安装 14.3.2Hadoop安装 14.4大数据分析案例 14.4.1日志分析 14.4.2电商购买记录分析 14.4.3交通流量分析 参考文献 |