《数据挖掘原理与算法》PDF下载

  • 购买积分:14 如何计算积分?
  • 作  者:邵峰晶,于忠清,王金龙等编著
  • 出 版 社:北京:科学出版社
  • 出版年份:2009
  • ISBN:9787030254405
  • 页数:412 页
图书介绍:本书在介绍了数据挖掘产生、发展以及原理的基础上,从应用的角度出发,逐章详细地介绍了数据挖掘中的关联、分类、聚类、序列和时间序列等概念和技术,对每种技术应用均提供了代表性算法。同时,结合作者近年来所做研究,对数据挖掘的应用问题作了分类论述。最后,对目前数据挖掘的最新发展、应用发展趋势进行了概括性介绍和总结。

第1章 导论 1

1.1数据挖掘的社会需求 1

1.2什么是数据挖掘 2

1.3数据挖掘的数据来源 5

1.4数据挖掘的分类 7

1.4.1分类分析 8

1.4.2聚类分析 9

1.4.3关联分析 10

1.4.4序列分析及时间序列 11

1.4.5孤立点分析 12

1.4.6其他分析 12

1.5数据挖掘的体系结构与运行过程 13

1.5.1数据挖掘的体系结构 13

1.5.2数据挖掘的步骤 15

1.5.3实例 17

1.5.4数据挖掘的过程模型 18

1.5.5数据挖掘主要厂商和产品 18

1.6数据挖掘与其他相关技术 19

1.6.1数据挖掘与数据库中知识发现 19

1.6.2数据挖掘与联机分析处理 20

1.6.3数据挖掘与信息检索 22

1.6.4数据挖掘与机器学习 23

1.6.5数据挖掘与数据融合 24

1.6.6数据挖掘与统计学 24

1.6.7数据挖掘与专家系统 25

1.6.8数据挖掘与决策支持系统 25

1.6.9数据挖掘与客户关系管理 26

1.6.10软硬件发展对数据挖掘的影响 28

1.6.11 XML与面向Web的数据挖掘技术 28

1.7数据挖掘工具的评价标准 31

1.8数据挖掘的应用 32

1.9数据挖掘的要求及挑战 34

第2章 数据仓库技术 36

2.1数据仓库概述 36

2.1.1数据仓库的定义 36

2.1.2数据仓库查询系统 37

2.1.3 OLTP与OLAP 37

2.1.4数据仓库与数据集市 38

2.1.5数据仓库系统的结构 40

2.1.6数据仓库中的元数据管理 41

2.2数据仓库的建模 45

2.2.1星型模型 45

2.2.2雪花模型 46

2.2.3混合模型 47

2.2.4多维数据模型 47

2.3联机分析处理 48

2.3.1 OLAP的功能及体系结构 49

2.3.2 OLAP数据组织模型 50

2.3.3 OLAP的Web结构 52

2.3.4 OLAP数据查询机制 53

2.4海威数据仓库系统简介 54

2.4.1 Highway Decision Center V1.0系统结构 54

2.4.2 Highway Decision Center V2.0系统结构 58

2.4.3海威数据仓库网络结构 59

2.5数据仓库应用举例 60

2.5.1信用卡资信分析 60

2.5.2贷款分析 63

第3章 数据挖掘中的数据预处理 67

3.1概论 67

3.2数据预处理的基本步骤 67

3.3数值属性的离散化与特征选择 69

3.3.1 Chi2算法简介 70

3.3.2举例 72

3.3.3讨论 73

3.4概念分层 73

3.4.1数据库中面向属性的归纳 74

3.4.2概念分层的动态提炼 79

3.4.3针对数值属性的概念分层的自动产生 83

3.5数据抽样 85

3.5.1数据挖掘不同领域中的抽样 86

3.5.2数据挖掘中抽样方法 87

3.5.3静态与动态抽样 88

第4章 关联规则 90

4.1关联规则挖掘的基本概念 90

4.2关联规则的发现算法 92

4.2.1算法Apriori 92

4.2.2算法AprioriTid 95

4.2.3算法AprioriHybrid 98

4.2.4生成规则 98

4.2.5算法FP-Growth 99

4.2.6算法ECLAT 101

4.2.7基于粒计算的频繁模式挖掘算法 103

4.3数值属性关联规则 106

4.3.1基本概念 106

4.3.2确定数值属性划分的聚类算法CP 108

4.4多层关联规则挖掘 110

4.4.1概念层次(conceptual hierarchies) 110

4.4.2同层(same hierarchy)关联规则挖掘 111

4.5约束性关联规则发现方法及算法 113

4.5.1算法Separate 114

4.5.2其他约束条件 116

4.6关联规则的增量式更新算法 116

4.6.1阈值的动态调整 117

4.6.2数据库的更新 120

4.7频繁项集的压缩 122

第5章 数据分类 124

5.1决策树基本算法 126

5.1.1决策树生成算法 126

5.1.2决策树的修剪 128

5.2决策树ID3 130

5.2.1基本概念 131

5.2.2定义 133

5.2.3 ID3算法 134

5.2.4 ID3算法优劣 135

5.3决策树学习算法C4.5 136

5.3.1使用增益率 136

5.3.2处理未知值的训练样本 137

5.3.3有连续值的属性 138

5.3.4规则的产生 138

5.3.5交叉验证 139

5.3.6 C4.5工作流程 139

5.4分类与回归树 140

5.4.1基本定义 141

5.4.2构建树算法 143

5.4.3修剪 145

5.4.4决策树评估 149

5.4.5内存管理及时间复杂性分析 151

5.5 SLIQ一种快速可扩展的分类算法 152

5.5.1扩展性问题 153

5.5.2 SLIQ分类器 154

5.5.3数据结构及算法 158

5.6 SPRINT——数据挖掘中一种可扩展的并行分类器 161

5.6.1数据结构 162

5.6.2分割点的求解 163

5.6.3分割 164

5.6.4与SLIQ的对比 165

5.6.5分类并行化 165

5.7分类算法的评价 167

5.7.1分类器准确率度量 167

5.7.2 ROC曲线 169

5.8其他分类算法 169

5.8.1人工神经网络 169

5.8.2支持向量机 170

5.8.3概率图模型 171

第6章 聚类分析 175

6.1基础知识 179

6.1.1距离与相似系数 181

6.1.2聚类的特征与聚类间的距离 183

6.2聚类算法k-means及k-modes 184

6.2.1 k-means算法 184

6.2.2改进的k-means算法 185

6.2.3 k-modes算法 188

6.3基于k-medoid的划分聚类算法 192

6.3.1 PAM算法 192

6.3.2 CLARA算法 193

6.3.3基于随机搜索的聚类算法CLARANS 194

6.4层次聚类法 196

6.4.1最短距离法 196

6.4.2最长距离法 198

6.4.3中间距离法 199

6.4.4其他方法 201

6.4.5利用层次方法的平衡迭代归约及聚类 204

6.5基于密度方法的聚类 211

6.5.1基本术语 211

6.5.2基于密度的簇排序(density-based cluster-ordering) 213

6.5.3识别聚类结构(identifying the clustering structure) 217

6.6高维度数据的自动子空间聚类算法CLIQUE 224

6.6.1问题描述 225

6.6.2算法 227

6.7大型数据集中孤立点挖掘的高效算法 231

6.7.1问题定义 232

6.7.2嵌入式循环及基于索引的算法 233

6.7.3基于划分的算法 236

6.8聚类有效性 241

6.8.1只涉及隶属度值的有效性指标 242

6.8.2涉及隶属度和数据集的有效性指标 242

第7章 序列模式与时间序列 244

7.1序列模式挖掘 244

7.1.1基本定义 244

7.1.2 Apriori类算法 247

7.1.3有时间约束的序列模式挖掘 258

7.1.4基于垂直数据库格式的SPADE算法 260

7.1.5基于投影数据库的FreeSpan算法 261

7.1.6偏序挖掘 265

7.2时间序列挖掘 268

7.2.1时间序列相似性搜索 272

7.2.2时间序列分段线性表示 276

第8章 空间多维数据访问与可视化 279

8.1多维访问技术 280

8.1.1引言 280

8.1.2空间数据的结构 280

8.1.3基本的数据结构 284

8.2 R-树及R*-树:空间搜索的动态索引树 289

8.2.1 R-树的索引结构 289

8.2.2搜索及更新 291

8.2.3 Choose Subtree算法 295

8.2.4 R*-树的分裂 296

8.2.5强迫重插入 297

8.2.6 R*-树:一个有效的点存取方法 299

8.3可视化技术 300

8.3.1多维数据可视化简介 301

8.3.2多维数据的平行坐标表示法 302

8.3.3圆形分段:一种大数据量多维数据可视化技术 309

8.3.4高维数据集的可视化 311

8.4基于云模型的空间数据挖掘算法 313

8.4.1云模型简介 313

8.4.2云理论在空间数据挖掘和知识发现中的应用 315

第9章 开放式的数据挖掘系统 317

9.1用于数据挖掘的OLE DB For Data Ming 317

9.1.1 OLE DB For Data Ming简介 317

9.1.2 OLE DB For DM编程基础 318

9.2可预测模型描述语言 323

9.2.1简介 323

9.2.2一个简单的PMML例子 324

9.3产品简介 325

9.3.1背景 325

9.3.2产品目标 326

9.4系统结构 327

9.4.1用于OLAP系统的数据挖掘应用系统结构 327

9.4.2基于B/S结构的应用框架 328

9.4.3逻辑模块结构设计 330

9.5 Web Service技术 333

9.6输入和输出 334

9.6.1系统输入:OLTP、OLAP及其他 334

9.6.2利用可视化技术构造可理解的知识展现 334

9.7应用模式 335

9.8现状与前景 336

第10章 数据挖掘应用 337

10.1数据挖掘在商业中的应用 337

10.1.1基于数据挖掘的客户忠诚度分析 337

10.1.2基于数据挖掘的商品相关性分析 342

10.2数据挖掘在金融数据分析领域中的应用 346

10.2.1基于数据挖掘的企业信用评估架构模型 346

10.2.2基于数据挖掘的反洗钱研究简介 347

10.3数据挖掘在网络信息安全中的应用 348

10.3.1网络入侵检测技术概述 348

10.3.2网络入侵检测模型 350

10.3.3基于数据挖掘的网络入侵检测应用 351

10.3.4网络入侵检测技术的发展趋势 363

10.4数据挖掘在科研文献分析中的应用 363

10.4.1科研文献挖掘简介 363

10.4.2基于研究者发文序列的领域发展研究 366

10.4.3基于概率图模型的科研文献主题演化研究 372

10.4.4面向异质关系的社区挖掘 375

第11章 数据挖掘新进展 379

11.1方法上的新进展 379

11.1.1全局和局部相结合的数据挖掘 380

11.1.2基于数据粒度表示的挖掘 382

11.1.3基于局部模式的全局模型挖掘 383

11.1.4基于局部模式的全局信息获取 384

11.2应用上的新进展 385

11.2.1关系数据挖掘 385

11.2.2数据流挖掘 387

11.2.3隐私保护数据挖掘 388

参考文献 393