《大数据挖掘技术与应用》PDF下载

  • 购买积分:11 如何计算积分?
  • 作  者:孟海东,宋宇辰著
  • 出 版 社:北京:冶金工业出版社
  • 出版年份:2014
  • ISBN:9787502467807
  • 页数:278 页
图书介绍:本书针对数据的海量性、复杂性、高维性、模糊性和不完整性,对数据挖掘技术中的聚类分析和关联规则分析进行了系统的研究。设计与实现了基于密度和自适应密度可达聚类算法、基于簇特征的动态增量聚类算法、并行聚类算法、基于密度加权的模糊聚类算法、高唯复杂数据聚类算法、基于数据场的聚类算法、基于距离的量化关联规则和基于数据场的量化关联规则算法,给出了在矿产资源评价、遥感图像分类、矿业经济分析中的应用例证。全书共分11章,主要内容包括:绪论,基于密度和密度可达聚类分析,基于簇特征的动态增量聚类分析,并行聚类分析,基于密度加权的模糊聚类分析,高唯复杂数据聚类分析,基于数据场的聚类分析,基于距离的量化关联规则,基于数据场的量化关联规则,数据挖掘结果可视化和数据挖掘算法应用。

1 绪论 1

1.1 大数据 1

1.1.1 大数据概念 1

1.1.2 大数据特征 4

1.2 云计算与大数据挖掘 5

1.2.1 云计算 5

1.2.2 大数据挖掘 6

1.3 传统数据挖掘 6

1.3.1 数据源与挖掘任务 7

1.3.2 数据挖掘方法 7

1.3.3 数据挖掘面临问题 9

参考文献 10

2 基于属性加权和密度聚类分析 11

2.1 聚类分析技术 11

2.1.1 数据基础 11

2.1.2 聚类分析方法 16

2.1.3 簇的类型 16

2.2 聚类算法 17

2.2.1 聚类算法分类 17

2.2.2 聚类算法特性 19

2.2.3 选用聚类算法参考因素 20

2.2.4 聚类算法面临的挑战 21

2.3 聚类算法改进 22

2.3.1 聚类算法分析 23

2.3.2 数据对象属性加权 25

2.3.3 基于属性加权K-means算法 27

2.3.4 实例验证算法 28

2.4 基于密度与对象方向聚类算法 29

2.4.1 算法的提出 29

2.4.2 DENCLUE算法 30

2.4.3 算法设计 31

2.5 CABWAD算法实现 36

2.5.1 数据结构建立 36

2.5.2 数据结构上聚类 38

2.5.3 时间和空间复杂度 40

2.6 实验分析 40

2.6.1 准确度分析 41

2.6.2 可扩展性分析 43

参考文献 44

3 基于密度与密度可达聚类分析 46

3.1 CABWAD算法分析 46

3.1.1 算法过程分析 46

3.1.2 两个输入参数的分析 47

3.2 算法设计与分析 50

3.2.1 相关定义 50

3.2.2 CADD算法设计 53

3.2.3 算法执行过程分析 53

3.3 实验分析 55

3.3.1 不同分布形态的簇(缠绕簇) 55

3.3.2 不同密度的簇 56

3.3.3 分布在不同密度噪声中的变密度簇 57

3.3.4 复杂形态簇 58

3.3.5 算法复杂度分析 58

参考文献 60

4 动态增量聚类分析 61

4.1 算法提出 61

4.1.1 增量聚类算法 61

4.1.2 CADD算法分析 63

4.1.3 抽样技术 65

4.2 基于密度可达的动态增量聚类算法 66

4.2.1 算法设计 66

4.2.2 算法实现 68

4.2.3 算法复杂度分析 68

4.3 基于子簇特征的增量聚类算法 69

4.3.1 相关定义 69

4.3.2 算法设计 71

4.3.3 算法实现 71

4.4 实验分析 72

4.4.1 仿真动态增量聚类 72

4.4.2 算法对比分析 76

参考文献 77

5 并行聚类分析 79

5.1 并行计算技术 79

5.1.1 并行计算定义 80

5.1.2 并行计算分类 80

5.1.3 并行计算模型和体系结构 81

5.1.4 并行数据挖掘 84

5.1.5 并行聚类分析 85

5.2 并行聚类算法设计与实现 87

5.2.1 算法总体流程 87

5.2.2 数据并行聚类算法 88

5.2.3 数据并行和任务并行聚类算法 89

5.3 实验分析 91

5.3.1 算法有效性分析 91

5.3.2 算法加速比分析 91

5.3.3 算法时间复杂度分析 92

5.3.4 PCADD与CADD算法执行时间对比 92

参考文献 93

6 高维多类型属性数据对象聚类分析 94

6.1 高维多类型属性数据对象 94

6.1.1 高维数据处理 94

6.1.2 多类型属性处理 95

6.1.3 高维数据对象聚类 95

6.1.4 多类型属性数据对象聚类 97

6.2 维度对聚类算法精度影响 98

6.2.1 高维数据聚类 98

6.2.2 数据集与相关定义 98

6.2.3 实验结果及分析 99

6.3 多类型属性数据聚类分析 102

6.3.1 处理多类型数据方法 102

6.3.2 聚类效果度量标准 102

6.3.3 实验结果及分析 103

6.4 基于属性加权的高维数据聚类 107

6.4.1 属性加权CADD算法 107

6.4.2 实验结果及分析 108

参考文献 112

7 基于密度加权模糊聚类分析 114

7.1 模糊聚类分析 114

7.1.1 模糊聚类产生 114

7.1.2 模糊聚类分类 115

7.1.3 模糊聚类算法优化 116

7.2 模糊聚类算法 117

7.2.1 模糊簇 117

7.2.2 HC-means聚类算法 117

7.2.3 FC-means聚类算法 118

7.2.4 HCM和FCM的关系 119

7.2.5 FCM算法存在问题分析 120

7.3 基于密度函数加权的FCM 121

7.3.1 聚类算法提出 121

7.3.2 聚类算法设计 122

7.3.3 实验结果及分析 123

参考文献 131

8 基于距离量化关联规则挖掘 133

8.1 关联规则挖掘 133

8.1.1 关联规则相关概念 133

8.1.2 关联规则度量 135

8.1.3 关联规则分类 136

8.1.4 关联规则挖掘模型与步骤 137

8.2 量化关联规则 138

8.2.1 量化关联规则提出 138

8.2.2 量化关联规则定义 141

8.2.3 算法描述 143

8.2.4 算法分析 144

8.3 基于距离算法设计与实现 146

8.3.1 算法设计 146

8.3.2 数据预处理 147

8.3.3 基于距离量化规则 148

8.3.4 簇间关联度的度量 148

8.3.5 关联度参数D0限定 149

8.3.6 规则的生成 151

8.4 算法实验分析 151

8.4.1 系统交互界面 151

8.4.2 地球化学数据分析 152

8.4.3 临床医学调查数据 154

参考文献 154

9 基于数据场的数据挖掘技术 156

9.1 数据场 156

9.1.1 数据场的概念 156

9.1.2 数据场主要特征 157

9.1.3 数据场表达 157

9.2 数据场聚类算法 159

9.2.1 数据场聚类算法设计 159

9.2.2 测试数据集产生 160

9.2.3 位场聚类实验 160

9.2.4 辐射场聚类实验 161

9.2.5 参数对数据场聚类效果影响 162

9.3 聚类效果实验分析 164

9.3.1 模拟数据分析 164

9.3.2 UCI数据集实验 166

9.4 基于数据场量化关联规则挖掘 170

9.4.1 常用量化关联规则挖掘方法 170

9.4.2 算法相关定义 171

9.4.3 算法设计与实现 173

9.5 关联规则挖掘实验与分析 174

9.5.1 身体脂肪bodyfat数据集 174

9.5.2 临床医学数据实验测试 176

参考文献 177

10 基于MapReduce聚类分析 179

10.1 Hadoop开源云计算平台 179

10.1.1 MapReduce 179

10.1.2 HDFS文件系统 181

10.1.3 基于MapReduce聚类算法 182

10.2 基于MapReduce K-means算法改进 184

10.2.1 距离三角不等式聚类算法 184

10.2.2 距离三角不等式算法设计 185

10.2.3 聚类算法实验结果分析 187

10.3 基于MapReduce CADD聚类算法 189

10.3.1 算法设计 189

10.3.2 MapReduce聚类模型 190

10.3.3 聚类算法实验结果分析 191

参考文献 191

11 数据挖掘结果可视化表达 194

11.1 可视化数据挖掘 194

11.1.1 数据可视化 195

11.1.2 数据挖掘过程可视化 196

11.1.3 数据挖掘结果可视化 196

11.1.4 交互式可视化数据挖掘 197

11.2 数据可视化方法及分类 198

11.2.1 基于几何的技术 198

11.2.2 面向像素的技术 200

11.2.3 基于图标的技术 200

11.2.4 基于层次的技术 201

11.3 可视化数据挖掘系统设计与实现 202

11.3.1 可视化挖掘系统 202

11.3.2 聚类结果可视化 203

11.3.3 关联规则结果可视化 206

参考文献 210

12 地球化学数据挖掘(Ⅰ) 212

12.1 地球化学数据处理方法 212

12.1.1 传统处理方法 212

12.1.2 数据挖掘方法 213

12.2 地球化学数据聚类分析 215

12.2.1 地球化学数据来源 215

12.2.2 区域地质概况 215

12.2.3 聚类分析研究 218

12.2.4 靶区地球化学特征 219

12.3 区域矿产资源预测 223

12.3.1 地球化学异常靶区 223

12.3.2 元素组合特征分析 224

12.3.3 区域矿产资源预测 230

参考文献 231

13 地球化学数据挖掘(Ⅱ) 233

13.1 区域地质形貌 233

13.1.1 自然地理环境 233

13.1.2 区域地质概况 233

13.2 地球化学元素聚类分析 236

13.2.1 数据整理和建立数据库 236

13.2.2 地球化学数据聚类分析 236

13.2.3 聚类结果MapGIS成图 238

13.3 地球化学元素组合特征分析 240

13.3.1 靶区1~4元素组合特征 240

13.3.2 靶区5元素组合特征 240

13.3.3 矿产资源预测 241

13.4 地球化学元素模糊C-means聚类 244

13.4.1 某金矿区模糊C-means聚类分析 244

13.4.2 某锡矿区模糊C-means聚类分析 245

13.4.3 某采样地区模糊C-means聚类分析 246

参考文献 247

14 资源与经济发展关系分析 248

14.1 资源与经济 248

14.1.1 矿产资源开发 248

14.1.2 传统研究方法 249

14.2 数据源与数据预处理 252

14.2.1 数据的选取 252

14.2.2 数据标准化 253

14.3 聚类分析 254

14.3.1 资源储量属性 254

14.3.2 环境指标属性 256

14.3.3 经济指标属性 258

14.3.4 技术指标属性 271

14.3.5 结论与建议 274

参考文献 276