第一部分 大数据架构师入门 3
第1章 大数据概述 3
1.1 什么是大数据 4
1.2 大数据的本质 6
1.3 大数据技术当前状态 8
1.4 大数据的技术发展趋势 11
第2章 大数据项目常见场景 13
2.1 实验型部署场景 14
2.2 中小型部署场景 16
2.3 大型部署场景 19
第3章 大数据方案关键因素 23
3.1 数据存储规模与数据类型 24
3.2 数据来源与数据质量 25
3.3 业务特征 26
3.4 经济可行性 27
3.5 运维管理要求 28
3.6 安全性要求 29
3.7 部署要求 31
3.8 系统边界 32
3.9 约束条件 34
3.10 要点回顾 34
第二部分 大数据架构师基础 39
第4章 Hadoop基础组件 39
4.1 Hadoop简介 40
4.2 Hadoop版本演进 41
4.3 Hadoop2.0生态系统简介 42
4.4 Hadoop分布式文件系统HDFS 43
4.5 Hadoop统一资源管理框架YARN 48
4.6 Hadoop分布式计算框架MapReduce 52
4.7 Hadoop分布式集群管理系统ZooKeeper 57
第5章 Hadoop其他常用组件 61
5.1 Hadoop数据仓库工具Hive 62
5.2 Hadoop分布式数据库HBase 65
5.3 Hadoop实时流处理引擎Storm 70
5.4 Hadoop交互式查询引擎Impala 74
5.5 其他常用组件 78
第6章 Spark内存计算框架 83
6.1 内存计算与Spark 84
6.2 Spark的主要概念 86
6.3 Spark核心组件介绍 96
6.4 Spark与Hadoop之间的关系 100
6.5 要点回顾 104
第7章 大数据分析 105
7.1 数据时代 107
7.2 先进分析 109
7.3 架构与平台 112
7.4 数据分析流程 116
7.5 要点回顾 119
第8章 大数据中间件层 121
8.1 中间件层简介 122
8.2 中间件层产品介绍 123
8.3 中间件层的应用 137
8.4 中间件层的发展 140
8.5 要点回顾 144
第9章 可视化技术 145
9.1 可视化技术引言 146
9.2 什么是数据可视化 147
9.3 数据可视化设计 151
9.4 数据可视化的发展趋势 160
9.5 要点回顾 161
第10章 大数据安全 163
10.1 安全体系 164
10.2 大数据系统安全 168
10.3 要点回顾 180
第11章 大数据管理 181
11.1 数据管理的范围和定义 182
11.2 开源软件的管理能力 183
11.3 ZTE中兴大数据管理框架 187
11.4 大数据管理展望 192
11.5 要点回顾 192
第三部分 大数据架构师实践 195
第12章 大数据项目实践 195
12.1 大数据项目架构关键步骤 197
12.2 架构师实践思考 209
第13章 大数据部署实践 213
13.1 中兴通讯DAP大数据平台功能和架构 214
13.2 DAP平台特点 215
13.3 某银行成功案例 216
第四部分 大数据架构师拓展 225
第14章 分布式系统与大数据的关系 225
14.1 分布式系统概述 226
14.2 分布式系统关键协议和算法概述 233
14.3 分布式系统和大数据 237
第15章 数据库系统与大数据的关系 241
15.1 数据库系统的历史 242
15.2 各类系统求同存异 254
15.3 数据库的发展展望 255
第16章 云计算与大数据的关系 257
16.1 虚拟化概述 258
16.2 OpenStack云管理架构实现 263
16.3 大数据基于云计算IAAS(包括Docker)部署的探讨 270
后记 273