第一篇 基础理论篇 3
第1章 绪论 3
1.1数据挖掘 4
1.1.1数据挖掘的产生和定义 4
1.1.2数据挖掘的任务与分类 6
1.1.3研究前沿和发展趋势 8
1.2关联规则 9
1.2.1关联规则及其分类 9
1.2.2关联规则挖掘算法 12
1.3集群系统与并行计算模型 17
1.3.1集群系统 17
1.3.2并行计算模型 18
1.3.3大数据处理架构Hadoop与Spark 21
1.4大数据环境下的数据挖掘及应用 27
1.4.1大数据 27
1.4.2大数据挖掘及应用 29
第2章 MapReduce集群环境下的数据放置策略 33
2.1引言 34
2.2数据放置策略的关键问题与度量标准 35
2.3数据放置策略的优化 37
2.3.1 MapReduce集群系统能耗与数据放置策略 38
2.3.2负载均衡的数据放置策略 41
2.3.3改善I/O性能与通信负载的数据放置策略 46
2.3.4考虑其他因素的数据放置策略 49
2.4数据放置策略的分析与归纳 50
2.5本章小结 53
第二篇 关联规则并行挖掘及性能优化篇 61
第3章 压缩后缀链表与并行频繁项集挖掘算法 61
3.1问题提出 62
3.2基础理论 63
3.3基于MapReduce的频繁项集挖掘算法 65
3.3.1第一个MapReduce作业 67
3.3.2第二个MapReduce作业 67
3.4实验评价 68
3.4.1最小支持度 69
3.4.2可扩展性 70
3.4.3加速比 70
3.5本章小结 71
第4章 FIUT算法与频繁项集并行挖掘 73
4.1引言 74
4.2 FIUT算法描述 76
4.3 FiDoop算法概述 77
4.4基于MapReduce的FiDoop算法 81
4.4.1第一个MapReduce作业 83
4.4.2第二个MapReduce作业 83
4.4.3第三个MapReduce作业 84
4.5实现细节 87
4.5.1负载均衡 87
4.5.2高维优化 88
4.6 FiDoop-HD算法 90
4.7实验评价 92
4.7.1最小支持度 93
4.7.2负载均衡 95
4.7.3加速比 96
4.7.4可扩展性 97
4.8本章小结 98
第5章 MapReduce编程模型下的约束频繁项集并行挖掘算法 101
5.1问题提出 102
5.2约束频繁项集挖掘算法的并行化 103
5.3基于MapReduce的约束频繁项集并行挖掘 105
5.4基于MapReduce的约束频繁项集并行挖掘算法(PACFP) 108
5.4.1并行化计数过程 108
5.4.2并行化CFP-Growth算法 109
5.4.3结果聚合 111
5.5负载均衡 111
5.6实验结果及分析 112
5.6.1最小支持度 113
5.6.2可伸缩性 115
5.6.3可扩展性 116
5.6.4约束条件判断的代价分析 117
5.6.5负载均衡 118
5.7本章小结 120
第6章 支持并行频繁项集挖掘的数据划分策略 121
6.1引言 122
6.1.1 FiDoop-DP算法的研发动机 123
6.1.2 FiDoop-DP算法要解决的数据划分问题 124
6.1.3 FiDoop-DP算法的基本思想 125
6.2并行FP-Growth算法 126
6.3相关工作 128
6.3.1 MapReduce下的数据划分 128
6.3.2应用系统相关的数据划分 129
6.4问题陈述和设计目标 131
6.4.1基本方法与问题陈述 131
6.4.2设计目标 132
6.5数据划分策略 133
6.5.1距离度量 134
6.5.2 K-Means算法种子点的选择 135
6.5.3划分策略 135
6.6实现细节 138
6.7实验评价 143
6.7.1种子点个数对算法的影响 143
6.7.2最小支持度对算法的影响 145
6.7.3数据特征对算法的影响 147
6.7.4加速比 149
6.7.5可扩展性 150
6.8本章小结 151
第7章 频繁项集并行化过程中的重定向任务调度 153
7.1问题提出 154
7.2重定向任务调度算法 156
7.2.1数据本地化的重要性 156
7.2.2计算响应时间 157
7.2.3重定向任务调度算法的设计 158
7.3实验结果及分析 160
7.3.1有效性 160
7.3.2可扩展性 161
7.3.3稳定性 162
7.4本章小结 163
第8章 基于Spark内存计算的并行频繁项集挖掘及优化 165
8.1引言 166
8.2 FP-Growth算法的并行化分析 167
8.3 Spark环境下的均衡FP-Growth算法 169
8.3.1负载均衡的分组策略 169
8.3.2负载均衡的FP-Growth算法并行化 172
8.4实验评价 174
8.4.1算法执行效率 175
8.4.2加速比 176
8.4.3可扩展性 177
8.5本章小结 178
第三篇 应用篇 181
第9章 冷轧辊加工质量管理过程相关性分析 181
9.1引言 182
9.2系统需求与总体设计 184
9.2.1 轧辊生产工艺流程 184
9.2.2冷轧辊生产质量管理特点 186
9.2.3系统的软件体系结构及功能 188
9.3数据预处理及关键技术 190
9.3.1数据转换 190
9.3.2数据清理 190
9.3.3数据离散化 193
9.4提取关联规则 195
9.5系统实现及运行结果 196
9.6本章小结 203
附录A 冷轧辊加工数据 205
附录B 冷轧辊加工数据预处理格式 207
参考文献 209