第1章 云计算概论 1
1.1 什么是云计算 1
1.2 云计算的产生背景 1
1.3 云计算的发展历史 2
1.4 如何学好云计算 3
习题 3
第2章 云计算基础 4
2.1 分布式计算 4
2.2 云计算的基本概念 5
2.3 云计算的关键技术 6
2.3.1 分布式海量数据存储 7
2.3.2 虚拟化技术 7
2.3.3 云平台技术 8
2.3.4 并行编程技术 8
2.3.5 数据管理技术 9
2.4 云交付模型 9
2.4.1 软件即服务 9
2.4.2 平台即服务 10
2.4.3 基础设施即服务 11
2.4.4 基本云交付模型的比较 12
2.4.5 容器即服务 12
2.5 云部署模式 13
2.5.1 公有云 14
2.5.2 私有云 14
2.5.3 混合云 14
2.6 云计算的优势与挑战 14
2.7 典型云应用 16
2.7.1 云存储 17
2.7.2 云服务 17
2.7.3 云物联 18
2.8 云计算与大数据 18
习题 20
第3章 虚拟化 21
3.1 虚拟化简介 21
3.1.1 什么是虚拟化 21
3.1.2 虚拟化的发展历史 22
3.1.3 虚拟化带来的好处 23
3.2 虚拟化的分类 24
3.2.1 服务器虚拟化 24
3.2.2 网络虚拟化 25
3.2.3 存储虚拟化 26
3.2.4 应用虚拟化 26
3.2.5 技术比较 27
3.3 系统虚拟化 28
3.4 虚拟化与云计算 29
3.5 开源技术 30
3.5.1 Xen 30
3.5.2 KVM 31
3.5.3 OpenVZ 31
3.6 虚拟化未来发展趋势 32
习题 33
第4章 云计算的应用 34
4.1 概述 34
4.2 Google公司的云计算平台与应用 36
4.2.1 MapReduce分布式编程环境 36
4.2.2 分布式大规模数据库管理系统BigTable 37
4.2.3 Google的云应用 37
4.3 亚马逊的弹性计算云 38
4.3.1 开放的服务 38
4.3.2 灵活的工作模式 39
4.3.3 总结 39
4.4 IBM蓝云云计算平台 40
4.4.1 蓝云云计算平台中的虚拟化 41
4.4.2 蓝云云计算平台中的存储结构 42
4.5 清华大学透明计算平台 43
4.6 阿里云 44
4.6.1 阿里云简介 44
4.6.2 阿里云的发展过程 44
4.6.3 阿里云的主要产品 46
4.7 Microsoft Azure 49
4.7.1 Microsoft Azure简介 49
4.7.2 Microsoft Azure架构 50
4.7.3 Microsoft Azure服务平台 50
4.7.4 开发步骤 51
习题 52
第5章 大数据概念和发展背景 53
5.1 什么是大数据 53
5.2 大数据的特点 53
5.3 大数据发展 54
5.4 大数据应用 55
习题 56
第6章 大数据系统架构概述 57
6.1 总体架构概述 57
6.1.1 总体架构设计原则 57
6.1.2 总体架构参考模型 58
6.2 运行架构概述 60
6.2.1 物理架构 60
6.2.2 集成架构 60
6.2.3 安全架构 61
6.3 主流大数据系统厂商 62
6.3.1 Cloudera 62
6.3.2 Hortonworks 62
6.3.3 Amazon 63
6.3.4 Google 63
6.3.5 微软 63
6.3.6 阿里云数加平台 64
习题 65
第7章 分布式通信与协同 66
7.1 数据编码传输 66
7.1.1 数据编码概述 66
7.1.2 LZSS算法 67
7.1.3 Snappy压缩库 68
7.2 分布式通信系统 68
7.2.1 远程过程调用 68
7.2.2 消息队列 69
7.2.3 应用层多播通信 69
7.2.4 Hadoop IPC应用 70
7.3 分布式协同系统 71
7.3.1 Chubby锁服务 71
7.3.2 ZooKeeper 73
7.3.3 ZooKeeper在HDFS高可用中使用 73
习题 75
第8章 大数据存储 76
8.1 大数据存储技术发展 77
8.2 海量数据存储的关键技术 77
8.2.1 数据分片与路由 78
8.2.2 数据复制与一致性 81
8.3 重要数据结构和算法 82
8.3.1 Bloom Filter 83
8.3.2 LSM树 84
8.3.3 Merkle哈希树 85
8.3.4 Cuckoo哈希 86
8.4 分布式文件系统 87
8.4.1 文件存储格式 87
8.4.2 Google文件系统 89
8.4.3 HDFS 90
8.5 分布式数据库NoSQL 92
8.5.1 NoSQL数据库概述 92
8.5.2 KV数据库 93
8.5.3 列式数据库 94
8.5.4 图数据库 95
8.5.5 文档数据库 96
8.6 HBase数据库搭建与使用 98
8.6.1 HBase伪分布式运行 98
8.6.2 HBase分布式运行 100
8.7 大数据存储技术趋势 102
习题 102
第9章 分布式处理 103
9.1 CPU多核和POSIX Thread 103
9.2 MPI并行计算框架 104
9.3 Hadoop MapReduce 105
9.4 Spark 106
9.5 数据处理技术发展 106
习题 107
第10章 Hadoop MapReduce解析 108
10.1 Hadoop MapReduce架构 108
10.2 Hadoop MapReduce与高性能计算、网格计算的区别 109
10.3 MapReduce工作机制 110
10.3.1 Map 111
10.3.2 Reduce 111
10.3.3 Combine 111
10.3.4 Shuffle 111
10.3.5 Speculative Task 112
10.3.6 任务容错 113
10.4 应用案例 114
10.4.1 WordCount 114
10.4.2 WordMean 116
10.4.3 Grep 118
10.5 MapReduce的缺陷与不足 119
习题 119
第11章 Spark解析 120
11.1 Spark RDD 120
11.2 Spark与MapReduce对比 121
11.3 Spark工作机制 122
11.3.1 DAG工作图 122
11.3.2 Partition 123
11.3.3 Lineage容错方法 123
11.3.4 内存管理 123
11.3.5 数据持久化 125
11.4 数据读取 125
11.4.1 HDFS 125
11.4.2 Amazon S3 125
11.4.3 HBase 125
11.5 应用案例 126
11.5.1 日志挖掘 126
11.5.2 判别西瓜好坏 127
11.6 Spark发展趋势 129
习题 129
第12章 流计算 130
12.1 流计算概述 130
12.2 流计算与批处理系统对比 131
12.3 Storm流计算系统 131
12.4 Samza流计算系统 133
12.5 集群日志文件实时分析 135
12.6 流计算发展趋势 138
习题 138
第13章 集群资源管理与调度 139
13.1 集群资源统一管理系统 139
13.1.1 集群资源管理概述 140
13.1.2 Apache YARN 141
13.1.3 Apache Mesos 145
13.1.4 Google Omega 146
13.2 资源管理模型 146
13.2.1 基于slot的资源表示模型 146
13.2.2 基于最大、最小公平原则的资源分配模型 147
13.3 资源调度策略 147
13.3.1 调度策略概述 147
13.3.2 Capacity Scheduler调度 148
13.3.3 Fair Scheduler调度 149
13.4 YARN上运行计算框架 151
13.4.1 MapReduce on YARN 151
13.4.2 Spark on YARN 152
13.4.3 YARN程序设计 153
习题 158
第14章 综合实践:在OpenStack平台上搭建Hadoop并进行数据分析 159
14.1 OpenStack简介 159
14.2 OpenStack的安装及配置 160
14.2.1 OpenStack安装准备 160
14.2.2 OpenStack在线安装 162
14.2.3 搭建OpenStack中的虚拟机 164
14.3 大数据环境安装 165
14.3.1 Java安装 165
14.3.2 Hadoop安装 166
14.4 大数据分析案例 169
14.4.1 日志分析 169
14.4.2 电商购买记录分析 170
14.4.3 交通流量分析 171
参考文献 173