第1章 绪论 1
第2章 大数据处理平台 5
2.1 平台描述 6
2.1.1 Hadoop 6
2.1.2 GridGain 7
2.1.3 Mars 8
2.1.4 Phoenix 9
2.1.5 Disco 9
2.1.6 Twister 10
2.1.7 Haloop 11
2.1.8 iMapReduce 12
2.1.9 iHadoop 12
2.1.10 PrIter 13
2.1.11 Dryad 14
2.1.12 Spark 15
2.2 平台对比 16
2.3 本章小结 19
第3章 能耗优化研究进展 20
3.1 能耗研究的层次 20
3.2 能耗优化方法 21
3.3 集群环境下的能耗优化方法 23
3.4 数据库系统能耗优化方法 24
3.5 研究现状分析 24
3.6 本章小结 25
第4章 大数据处理平台的能效度量模型 26
4.1 引言 26
4.2 相关工作 27
4.3 能效模型 28
4.4 能效测量和计算方法 30
4.4.1 测量方法 30
4.4.2 计算方法 31
4.4.3 能效极值分析 33
4.5 实验分析 34
4.5.1 单机实验 35
4.5.2 集群环境实验 41
4.6 本章小结 48
第5章 大数据处理平台的能耗基准测试与分析 50
5.1 引言 50
5.2 相关工作 52
5.3 基准测试方法 53
5.3.1 数据模型 53
5.3.2 测试用例 55
5.3.3 能耗模型 59
5.3.4 能耗分析方法 59
5.3.5 能耗测量方法 61
5.4 实验分析 61
5.4.1 实验环境 62
5.4.2 基准能耗比较 62
5.4.3 等待能耗分析 64
5.4.4 优化方法 71
5.5 本章小结 72
第6章 优化大数据处理平台的资源比模型 73
6.1 引言 73
6.2 相关工作 75
6.3 普适的资源和能效模型 76
6.4 MapReduce资源比模型 80
6.5 最佳资源比推导 83
6.6 实验验证 86
6.6.1 最佳资源比存在验证 87
6.6.2 空闲资源耗能验证 89
6.6.3 MapReduce阶段划分 91
6.7 本章小结 93
第7章 优化大数据处理平台能耗的任务分发算法 95
7.1 引言 95
7.2 相关工作 98
7.3 改进任务模型 99
7.4 改进任务分发算法 101
7.4.1 Map任务分发算法 101
7.4.2 Reduce任务分发算法 108
7.5 算法复杂度分析 111
7.6 实验验证 112
7.6.1 实验目的 112
7.6.2 实验环境 112
7.6.3 实验用例与数据选择 113
7.6.4 能耗实验与结果分析 114
7.6.5 能耗-性能分析 116
7.7 本章小结 118
第8章 优化大数据处理平台能耗的数据布局算法 120
8.1 引言 120
8.2 相关工作 121
8.3 数据布局模型 123
8.3.1 能耗优化目标 124
8.3.2 异构MapReduce系统 125
8.3.3 能耗优化的数据布局目标 126
8.4 数据布局算法 127
8.5 理论证明 130
8.6 实验验证 133
8.6.1 算法对比 133
8.6.2 实验环境 136
8.6.3 实验结果 138
8.6.4 三种系统的装载能耗及性能比较 139
8.6.5 能耗-性能分析 143
8.6.6 实验结论 143
8.7 本章小结 144
第9章 大数据处理算法能耗优化研究展望 145
9.1 Maps算法 145
9.1.1 搜索算法 146
9.1.2 数据清洗/变换算法 146
9.1.3 算法小结 146
9.2 Reduces算法 147
9.2.1 聚集算法 147
9.2.2 连接算法 147
9.2.3 排序算法 149
9.2.4 偏好查询 150
9.2.5 算法小结 152
9.3 迭代算法 153
9.3.1 最优化算法 153
9.3.2 图算法 154
9.3.3 数据挖掘算法 155
9.3.4 算法小结 156
9.4 算法分析 157
9.5 外存算法优化思路 161
9.6 本章小结 163
参考文献 164
后记 181