第1章 体系结构 1
1.1 集群系统 2
1.1.1 Hadoop YARN 2
1.1.2 Apache Mesos 3
1.1.3 Apache ZooKeeper 4
1.2 文件系统 5
1.2.1 Google分布式文件系统 6
1.2.2 Hadoop分布式文件系统 8
1.2.3 其他分布式文件系统 9
1.3 NoSQL和NewSQL 12
1.3.1 NoSQL数据库系统 12
1.3.2 NewSQL数据库系统 14
1.4 计算模型 16
1.4.1 MapReduce编程模型 16
1.4.2 Spark并行计算框架 25
参考文献 26
第2章 查询平台 31
2.1 基本原理 32
2.1.1 系统简介 33
2.1.2 架构组织 34
2.2 现有研究 37
2.2.1 大数据精确查询系统 37
2.2.2 大数据近似查询系统 40
2.2.3 大数据多维查询系统 40
2.3 近期成果 43
2.3.1 Haery 43
2.3.2 Probery 56
参考文献 75
第3章 分析平台 81
3.1 基本原理 82
3.1.1 OLAP技术 82
3.1.2 系统架构 84
3.2 现有研究 86
3.2.1 传统OLAP优化方法 86
3.2.2 OLAP存储计算优化 90
3.2.3 大数据OLAP引擎 97
3.3 近期成果 98
3.3.1 DOLAP 99
3.3.2 MapReduce OLAP 109
3.3.3 HaoLap 119
参考文献 121
第4章 迭代计算平台 127
4.1 基本原理 128
4.2 现有研究 129
4.2.1 MapReduce迭代计算框架 130
4.2.2 其他迭代计算框架 132
4.2.3 增量迭代计算 136
4.2.4 迭代算法优化 137
4.3 近期成果 139
4.3.1 增量迭代计算模型 139
4.3.2 归并迭代计算 157
4.3.3 迭代初始点选择 159
参考文献 172
第5章 实时处理平台 175
5.1 基本原理 176
5.2 现有研究 178
5.2.1 Lambda架构 179
5.2.2 队列 181
5.2.3 流处理 183
5.2.4 数据流处理框架 189
5.3 近期成果 200
5.3.1 实时数据迁移模型 201
5.3.2 数据源层的优化方法 207
5.3.3 迁移系统设计 216
参考文献 218
后记 219