1 绪论 1
1.1 大数据 1
1.1.1 大数据概念 1
1.1.2 大数据特征 4
1.2 云计算与大数据挖掘 5
1.2.1 云计算 5
1.2.2 大数据挖掘 6
1.3 传统数据挖掘 6
1.3.1 数据源与挖掘任务 7
1.3.2 数据挖掘方法 7
1.3.3 数据挖掘面临问题 9
参考文献 10
2 基于属性加权和密度聚类分析 11
2.1 聚类分析技术 11
2.1.1 数据基础 11
2.1.2 聚类分析方法 16
2.1.3 簇的类型 16
2.2 聚类算法 17
2.2.1 聚类算法分类 17
2.2.2 聚类算法特性 19
2.2.3 选用聚类算法参考因素 20
2.2.4 聚类算法面临的挑战 21
2.3 聚类算法改进 22
2.3.1 聚类算法分析 23
2.3.2 数据对象属性加权 25
2.3.3 基于属性加权K-means算法 27
2.3.4 实例验证算法 28
2.4 基于密度与对象方向聚类算法 29
2.4.1 算法的提出 29
2.4.2 DENCLUE算法 30
2.4.3 算法设计 31
2.5 CABWAD算法实现 36
2.5.1 数据结构建立 36
2.5.2 数据结构上聚类 38
2.5.3 时间和空间复杂度 40
2.6 实验分析 40
2.6.1 准确度分析 41
2.6.2 可扩展性分析 43
参考文献 44
3 基于密度与密度可达聚类分析 46
3.1 CABWAD算法分析 46
3.1.1 算法过程分析 46
3.1.2 两个输入参数的分析 47
3.2 算法设计与分析 50
3.2.1 相关定义 50
3.2.2 CADD算法设计 53
3.2.3 算法执行过程分析 53
3.3 实验分析 55
3.3.1 不同分布形态的簇(缠绕簇) 55
3.3.2 不同密度的簇 56
3.3.3 分布在不同密度噪声中的变密度簇 57
3.3.4 复杂形态簇 58
3.3.5 算法复杂度分析 58
参考文献 60
4 动态增量聚类分析 61
4.1 算法提出 61
4.1.1 增量聚类算法 61
4.1.2 CADD算法分析 63
4.1.3 抽样技术 65
4.2 基于密度可达的动态增量聚类算法 66
4.2.1 算法设计 66
4.2.2 算法实现 68
4.2.3 算法复杂度分析 68
4.3 基于子簇特征的增量聚类算法 69
4.3.1 相关定义 69
4.3.2 算法设计 71
4.3.3 算法实现 71
4.4 实验分析 72
4.4.1 仿真动态增量聚类 72
4.4.2 算法对比分析 76
参考文献 77
5 并行聚类分析 79
5.1 并行计算技术 79
5.1.1 并行计算定义 80
5.1.2 并行计算分类 80
5.1.3 并行计算模型和体系结构 81
5.1.4 并行数据挖掘 84
5.1.5 并行聚类分析 85
5.2 并行聚类算法设计与实现 87
5.2.1 算法总体流程 87
5.2.2 数据并行聚类算法 88
5.2.3 数据并行和任务并行聚类算法 89
5.3 实验分析 91
5.3.1 算法有效性分析 91
5.3.2 算法加速比分析 91
5.3.3 算法时间复杂度分析 92
5.3.4 PCADD与CADD算法执行时间对比 92
参考文献 93
6 高维多类型属性数据对象聚类分析 94
6.1 高维多类型属性数据对象 94
6.1.1 高维数据处理 94
6.1.2 多类型属性处理 95
6.1.3 高维数据对象聚类 95
6.1.4 多类型属性数据对象聚类 97
6.2 维度对聚类算法精度影响 98
6.2.1 高维数据聚类 98
6.2.2 数据集与相关定义 98
6.2.3 实验结果及分析 99
6.3 多类型属性数据聚类分析 102
6.3.1 处理多类型数据方法 102
6.3.2 聚类效果度量标准 102
6.3.3 实验结果及分析 103
6.4 基于属性加权的高维数据聚类 107
6.4.1 属性加权CADD算法 107
6.4.2 实验结果及分析 108
参考文献 112
7 基于密度加权模糊聚类分析 114
7.1 模糊聚类分析 114
7.1.1 模糊聚类产生 114
7.1.2 模糊聚类分类 115
7.1.3 模糊聚类算法优化 116
7.2 模糊聚类算法 117
7.2.1 模糊簇 117
7.2.2 HC-means聚类算法 117
7.2.3 FC-means聚类算法 118
7.2.4 HCM和FCM的关系 119
7.2.5 FCM算法存在问题分析 120
7.3 基于密度函数加权的FCM 121
7.3.1 聚类算法提出 121
7.3.2 聚类算法设计 122
7.3.3 实验结果及分析 123
参考文献 131
8 基于距离量化关联规则挖掘 133
8.1 关联规则挖掘 133
8.1.1 关联规则相关概念 133
8.1.2 关联规则度量 135
8.1.3 关联规则分类 136
8.1.4 关联规则挖掘模型与步骤 137
8.2 量化关联规则 138
8.2.1 量化关联规则提出 138
8.2.2 量化关联规则定义 141
8.2.3 算法描述 143
8.2.4 算法分析 144
8.3 基于距离算法设计与实现 146
8.3.1 算法设计 146
8.3.2 数据预处理 147
8.3.3 基于距离量化规则 148
8.3.4 簇间关联度的度量 148
8.3.5 关联度参数D0限定 149
8.3.6 规则的生成 151
8.4 算法实验分析 151
8.4.1 系统交互界面 151
8.4.2 地球化学数据分析 152
8.4.3 临床医学调查数据 154
参考文献 154
9 基于数据场的数据挖掘技术 156
9.1 数据场 156
9.1.1 数据场的概念 156
9.1.2 数据场主要特征 157
9.1.3 数据场表达 157
9.2 数据场聚类算法 159
9.2.1 数据场聚类算法设计 159
9.2.2 测试数据集产生 160
9.2.3 位场聚类实验 160
9.2.4 辐射场聚类实验 161
9.2.5 参数对数据场聚类效果影响 162
9.3 聚类效果实验分析 164
9.3.1 模拟数据分析 164
9.3.2 UCI数据集实验 166
9.4 基于数据场量化关联规则挖掘 170
9.4.1 常用量化关联规则挖掘方法 170
9.4.2 算法相关定义 171
9.4.3 算法设计与实现 173
9.5 关联规则挖掘实验与分析 174
9.5.1 身体脂肪bodyfat数据集 174
9.5.2 临床医学数据实验测试 176
参考文献 177
10 基于MapReduce聚类分析 179
10.1 Hadoop开源云计算平台 179
10.1.1 MapReduce 179
10.1.2 HDFS文件系统 181
10.1.3 基于MapReduce聚类算法 182
10.2 基于MapReduce K-means算法改进 184
10.2.1 距离三角不等式聚类算法 184
10.2.2 距离三角不等式算法设计 185
10.2.3 聚类算法实验结果分析 187
10.3 基于MapReduce CADD聚类算法 189
10.3.1 算法设计 189
10.3.2 MapReduce聚类模型 190
10.3.3 聚类算法实验结果分析 191
参考文献 191
11 数据挖掘结果可视化表达 194
11.1 可视化数据挖掘 194
11.1.1 数据可视化 195
11.1.2 数据挖掘过程可视化 196
11.1.3 数据挖掘结果可视化 196
11.1.4 交互式可视化数据挖掘 197
11.2 数据可视化方法及分类 198
11.2.1 基于几何的技术 198
11.2.2 面向像素的技术 200
11.2.3 基于图标的技术 200
11.2.4 基于层次的技术 201
11.3 可视化数据挖掘系统设计与实现 202
11.3.1 可视化挖掘系统 202
11.3.2 聚类结果可视化 203
11.3.3 关联规则结果可视化 206
参考文献 210
12 地球化学数据挖掘(Ⅰ) 212
12.1 地球化学数据处理方法 212
12.1.1 传统处理方法 212
12.1.2 数据挖掘方法 213
12.2 地球化学数据聚类分析 215
12.2.1 地球化学数据来源 215
12.2.2 区域地质概况 215
12.2.3 聚类分析研究 218
12.2.4 靶区地球化学特征 219
12.3 区域矿产资源预测 223
12.3.1 地球化学异常靶区 223
12.3.2 元素组合特征分析 224
12.3.3 区域矿产资源预测 230
参考文献 231
13 地球化学数据挖掘(Ⅱ) 233
13.1 区域地质形貌 233
13.1.1 自然地理环境 233
13.1.2 区域地质概况 233
13.2 地球化学元素聚类分析 236
13.2.1 数据整理和建立数据库 236
13.2.2 地球化学数据聚类分析 236
13.2.3 聚类结果MapGIS成图 238
13.3 地球化学元素组合特征分析 240
13.3.1 靶区1~4元素组合特征 240
13.3.2 靶区5元素组合特征 240
13.3.3 矿产资源预测 241
13.4 地球化学元素模糊C-means聚类 244
13.4.1 某金矿区模糊C-means聚类分析 244
13.4.2 某锡矿区模糊C-means聚类分析 245
13.4.3 某采样地区模糊C-means聚类分析 246
参考文献 247
14 资源与经济发展关系分析 248
14.1 资源与经济 248
14.1.1 矿产资源开发 248
14.1.2 传统研究方法 249
14.2 数据源与数据预处理 252
14.2.1 数据的选取 252
14.2.2 数据标准化 253
14.3 聚类分析 254
14.3.1 资源储量属性 254
14.3.2 环境指标属性 256
14.3.3 经济指标属性 258
14.3.4 技术指标属性 271
14.3.5 结论与建议 274
参考文献 276