并行数据挖掘及性能优化PDF电子书下载
- 电子书积分:10 积分如何计算积分?
- 作 者:荀亚玲著
- 出 版 社:北京:电子工业出版社
- 出版年份:2020
- ISBN:9787121375828
- 页数:211 页
第一篇 基础理论篇 3
第1章 绪论 3
1.1数据挖掘 4
1.1.1数据挖掘的产生和定义 4
1.1.2数据挖掘的任务与分类 6
1.1.3研究前沿和发展趋势 8
1.2关联规则 9
1.2.1关联规则及其分类 9
1.2.2关联规则挖掘算法 12
1.3集群系统与并行计算模型 17
1.3.1集群系统 17
1.3.2并行计算模型 18
1.3.3大数据处理架构Hadoop与Spark 21
1.4大数据环境下的数据挖掘及应用 27
1.4.1大数据 27
1.4.2大数据挖掘及应用 29
第2章 MapReduce集群环境下的数据放置策略 33
2.1引言 34
2.2数据放置策略的关键问题与度量标准 35
2.3数据放置策略的优化 37
2.3.1 MapReduce集群系统能耗与数据放置策略 38
2.3.2负载均衡的数据放置策略 41
2.3.3改善I/O性能与通信负载的数据放置策略 46
2.3.4考虑其他因素的数据放置策略 49
2.4数据放置策略的分析与归纳 50
2.5本章小结 53
第二篇 关联规则并行挖掘及性能优化篇 61
第3章 压缩后缀链表与并行频繁项集挖掘算法 61
3.1问题提出 62
3.2基础理论 63
3.3基于MapReduce的频繁项集挖掘算法 65
3.3.1第一个MapReduce作业 67
3.3.2第二个MapReduce作业 67
3.4实验评价 68
3.4.1最小支持度 69
3.4.2可扩展性 70
3.4.3加速比 70
3.5本章小结 71
第4章 FIUT算法与频繁项集并行挖掘 73
4.1引言 74
4.2 FIUT算法描述 76
4.3 FiDoop算法概述 77
4.4基于MapReduce的FiDoop算法 81
4.4.1第一个MapReduce作业 83
4.4.2第二个MapReduce作业 83
4.4.3第三个MapReduce作业 84
4.5实现细节 87
4.5.1负载均衡 87
4.5.2高维优化 88
4.6 FiDoop-HD算法 90
4.7实验评价 92
4.7.1最小支持度 93
4.7.2负载均衡 95
4.7.3加速比 96
4.7.4可扩展性 97
4.8本章小结 98
第5章 MapReduce编程模型下的约束频繁项集并行挖掘算法 101
5.1问题提出 102
5.2约束频繁项集挖掘算法的并行化 103
5.3基于MapReduce的约束频繁项集并行挖掘 105
5.4基于MapReduce的约束频繁项集并行挖掘算法(PACFP) 108
5.4.1并行化计数过程 108
5.4.2并行化CFP-Growth算法 109
5.4.3结果聚合 111
5.5负载均衡 111
5.6实验结果及分析 112
5.6.1最小支持度 113
5.6.2可伸缩性 115
5.6.3可扩展性 116
5.6.4约束条件判断的代价分析 117
5.6.5负载均衡 118
5.7本章小结 120
第6章 支持并行频繁项集挖掘的数据划分策略 121
6.1引言 122
6.1.1 FiDoop-DP算法的研发动机 123
6.1.2 FiDoop-DP算法要解决的数据划分问题 124
6.1.3 FiDoop-DP算法的基本思想 125
6.2并行FP-Growth算法 126
6.3相关工作 128
6.3.1 MapReduce下的数据划分 128
6.3.2应用系统相关的数据划分 129
6.4问题陈述和设计目标 131
6.4.1基本方法与问题陈述 131
6.4.2设计目标 132
6.5数据划分策略 133
6.5.1距离度量 134
6.5.2 K-Means算法种子点的选择 135
6.5.3划分策略 135
6.6实现细节 138
6.7实验评价 143
6.7.1种子点个数对算法的影响 143
6.7.2最小支持度对算法的影响 145
6.7.3数据特征对算法的影响 147
6.7.4加速比 149
6.7.5可扩展性 150
6.8本章小结 151
第7章 频繁项集并行化过程中的重定向任务调度 153
7.1问题提出 154
7.2重定向任务调度算法 156
7.2.1数据本地化的重要性 156
7.2.2计算响应时间 157
7.2.3重定向任务调度算法的设计 158
7.3实验结果及分析 160
7.3.1有效性 160
7.3.2可扩展性 161
7.3.3稳定性 162
7.4本章小结 163
第8章 基于Spark内存计算的并行频繁项集挖掘及优化 165
8.1引言 166
8.2 FP-Growth算法的并行化分析 167
8.3 Spark环境下的均衡FP-Growth算法 169
8.3.1负载均衡的分组策略 169
8.3.2负载均衡的FP-Growth算法并行化 172
8.4实验评价 174
8.4.1算法执行效率 175
8.4.2加速比 176
8.4.3可扩展性 177
8.5本章小结 178
第三篇 应用篇 181
第9章 冷轧辊加工质量管理过程相关性分析 181
9.1引言 182
9.2系统需求与总体设计 184
9.2.1 轧辊生产工艺流程 184
9.2.2冷轧辊生产质量管理特点 186
9.2.3系统的软件体系结构及功能 188
9.3数据预处理及关键技术 190
9.3.1数据转换 190
9.3.2数据清理 190
9.3.3数据离散化 193
9.4提取关联规则 195
9.5系统实现及运行结果 196
9.6本章小结 203
附录A 冷轧辊加工数据 205
附录B 冷轧辊加工数据预处理格式 207
参考文献 209
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《联吡啶基钌光敏染料的结构与性能的理论研究》李明霞 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《穿越数据的迷宫 数据管理执行指南》Laura Sebastian-Coleman 2020
- 《大数据环境下的信息管理方法技术与服务创新丛书 俄罗斯档案事业改革与发展研究》徐胡乡责编;肖秋会 2019
- 《NiFe2O4基惰性阳极材料的烧结行为及应用性能》杜金晶,王斌著 2019
- 《彼得·布鲁克导演实践研究》邓小玲著 2019
- 《并行数据挖掘及性能优化》荀亚玲著 2020
- 《文学翻译与大学英语教学》余玲著 2019
- 《看不见的精彩》郭小玲著 2018
- 《海南野生鹧鸪茶》李娟玲著 2019
- 《特殊教育学校教师工作 生活冲突研究》张俊玲著 2019
- 《中国学术思想研究辑刊 十八编 第12册 宋儒论韩愈排佛与师道》刘素玲著 2014
- 《Excel数据处理与可视化》韩春玲著 2020
- 《王夫之《楚辞通释》研究》丁海玲著 2018
- 《民办普通高校教师身份研究》王玲著 2019
- 《电子测量与仪器》人力资源和社会保障部教材办公室组织编写 2009
- 《少儿电子琴入门教程 双色图解版》灌木文化 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《通信电子电路原理及仿真设计》叶建芳 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《电子应用技术项目教程 第3版》王彰云 2019
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017