第1章 数据挖掘概述 1
1.1 数据挖掘技术产生的动力 1
1.1.1 数据爆炸问题 1
1.1.2 数据过量而知识贫乏 8
1.2 数据挖掘的概念与方法概述 9
1.2.1 数据挖掘溯源及“尿布与啤酒”的故事 9
1.2.2 数据挖掘的定义与特点 11
1.2.3 数据挖掘的支撑技术 12
1.2.4 数据挖掘与统计分析 16
1.2.5 数据挖掘与机器学习 18
1.2.7 数据仓库与联机分析处理 19
1.2.6 数据挖掘与人工智能 19
1.2.8 数据挖掘与决策支持系统、专家系统 21
1.2.9 数据挖掘与知识发现 22
1.3 数据挖掘的分类 25
1.3.1 按挖掘的数据库类型分类 25
1.3.2 按发现的知识类型分类 28
1.3.3 按采用的技术类型分类 29
1.3.4 按挖掘的深度分类 30
1.3.5 按数据挖掘的应用领域分类 30
1.4 数据挖掘的主要功能 31
1.4.1 预测及验证功能 31
1.4.2 描述功能 32
1.5 数据挖掘的工具及软件 33
1.5.1 Enterprise Miner 34
1.5.2 Clementine 35
1.5.3 Intelligent Miner 35
1.5.4 MineSet 36
1.5.5 DBMiner 36
1.5.6 PolyAnalyst和TextAnalyst 36
1.5.7 Explora 37
1.5.8 KDW 37
1.5.9 其他挖掘软件系统 37
1.6 数据挖掘的专利 38
1.7 数据挖掘技术的应用状况 40
1.7.1 基于客户数据库的市场营销 40
1.7.2 风险分析和欺诈检测 43
1.7.3 在体育领域的应用 44
1.7.4 数据挖掘技术在其他领域的应用 45
1.8 本章小结 47
本章参考文献 48
思考题 48
第2章 关联规则发现 50
2.1 关联规则挖掘的典型问题——货篮数据分析 53
2.2 关联规则挖掘的基本概念 54
2.2.1 关联规则 54
2.2.2 支持度和置信度 55
2.3 二值型关联规则挖掘 55
2.3.1 第一个关联规则挖掘算法——AIS 58
2.3.2 基于SQL的关联规则挖掘算法——SETM 60
2.3.3 关联规则挖掘的基本算法——Apriori 61
2.3.4 关联规则挖掘的改进算法 66
2.4 并行关联规则挖掘算法 76
2.4.1 内存分布的并行挖掘算法 77
2.4.2 共享内存的并行挖掘算法 80
2.4.3 并行算法研究的若干问题 81
2.5 数值型关联规则挖掘算法 82
2.5.1 数值型关联规则挖掘算法 83
2.5.2 模糊关联规则挖掘算法 86
2.6 多层次关联规则挖掘 91
2.6.1 同层关联规则的挖掘 91
2.6.2 层间关联规则的挖掘 95
2.7.1 阈值的动态调整 98
2.7 增量式关联规则挖掘 98
2.7.2 数据库的更新 99
2.8 关联规则挖掘的其他问题 103
2.9 关联规则挖掘在文献分析中的应用 104
2.10 本章小结 107
本章参考文献 107
思考题 109
第3章 数据分类 111
3.1 决策树 113
3.1.1 特征选择策略 116
3.1.2 决策树构造的过度问题和解决方法 122
3.1.4 决策树的测试 124
3.1.3 分类规则的生成 124
3.1.5 Bagging和Boosting技术 125
3.1.6 可扩展的决策树分类算法 128
3.1.7 常用的决策树算法概述 132
3.1.8 训练样本的规模对决策树的影响 133
3.2 神经网络 139
3.2.1 神经网络的分类 139
3.2.2 常用的神经网络 140
3.2.3 基于神经网络的分类方法 141
3.3 遗传算法 146
3.3.1 基本概念 147
3.3.2 遗传算子 148
3.3.3 算法过程 150
3.3.4 遗传算法的特点 151
3.3.5 遗传算法在分类中的应用 153
3.4 支持向量机 153
3.4.1 支持向量机的原理 154
3.4.2 支持向量机的改进算法 157
3.4.3 支持向量机的应用 158
3.5 其他分类方法 158
3.5.1 粗糙集理论 158
3.5.2 K-近邻算法 161
3.5.3 贝叶斯分类 163
3.5.4 简单距离分类 166
3.5.5 基于关联规则的分类算法 166
3.6.1 人脸辨识 167
3.6 分类方法在人脸识别中的应用 167
3.6.2 特征提取 168
3.6.3 人脸识别 169
3.6.4 人脸识别实例 169
3.7 本章小结 171
本章参考文献 173
思考题 175
第4章 聚类分析 176
4.1 聚类和聚类分析 176
4.2 数据类型 177
4.3 相似度量方法 179
4.3.1 距离 179
4.3.2 相似系数 180
4.3.3 属性的相似度量 182
4.4 聚类方法的分类 183
4.5 划分聚类方法 184
4.5.1 K-means及扩展算法 184
4.5.2 模糊划分聚类 188
4.5.3 K-medoids及其扩展算法 191
4.6 层次聚类方法 193
4.7 基于空间索引的聚类方法 197
4.7.1 基于密度的聚类 197
4.7.2 网格聚类方法 202
4.8 自组织神经网络 203
4.8.1 自组织神经网络的定义 203
4.8.2 自组织神经网络的学习过程 204
4.8.3 SOM的评价 208
4.8.4 自组织神经网络工具 209
4.8.5 其他自组织神经网络算法 213
4.8.6 自组织神经网络的应用 217
4.9 其他聚类方法 221
4.9.1 基于图的聚类 221
4.9.2 启发式寻优方法 222
4.9.3 基于模型的方法 224
4.9.4 高维空间的聚类 228
4.10 聚类方法的评价 231
4.10.1 聚类的准确度 231
4.10.2 聚类的同构度与异构度 234
4.10.3 聚类算法的比较 235
4.11 聚类应用案例 238
4.11.1 一个模糊聚类的应用案例分析 238
4.11.2 一个层次聚类的应用案例分析 240
4.12 本章小结 246
本章参考文献 248
思考题 250
第5章 统计预测方法与序列模式挖掘 251
5.1 时间序列与序列模式 252
5.2 时间序列预测的基本方法 253
5.3 回归预测方法 255
5.3.1 线性回归 256
5.3.4 回归方程的显著性检验 257
5.3.2 二次回归 257
5.3.3 其他回归方程 257
5.3.5 Logistic回归 260
5.4 统计预测案例分析 261
5.5 序列模式挖掘的基本概念与方法 265
5.5.1 概念与问题描述 266
5.5.2 序列模式挖掘方法 268
5.5.3 大序列计算方法 270
5.5.4 有时间约束的序列模式挖掘 278
5.6 多层次序列模式挖掘方法 279
5.6.1 定义与问题描述 279
5.6.3 多概念层次序列模式挖掘算法 280
5.6.2 多层次序列模式的性质 280
5.7 多层次序列模式挖掘在供应链管理中的应用 285
5.8 本章小结 286
本章参考文献 286
思考题 287
第6章 Web上的数据挖掘 288
6.1 Web上的数据 288
6.2 Web上的数据挖掘 289
6.2.1 Web内容挖掘 291
6.2.2 Web使用模式挖掘 294
6.2.3 Web结构挖掘 295
6.3 Web中数据挖掘的应用 296
6.3.1 发现Web客户的偏好与行为 296
6.3.2 Web智能查询 297
6.3.3 利用Web挖掘提高网络响应速度 300
6.3.4 Web智能工具 302
6.4 XML与数据挖掘 305
6.4.1 XML简介 305
6.4.2 PMML简介 306
6.4.3 XML和Web挖掘 307
6.5 电子商务的数据挖掘 308
6.6 本章小结 310
本章参考文献 311
思考题 312
7.1 数据挖掘工具 313
7.1.1 数据挖掘工具的体系结构 313
第7章 数据挖掘系统的设计与实现 313
7.1.2 数据挖掘工具简介 316
7.2 分布式环境下的集成数据挖掘系统 335
7.2.1 分布式数据挖掘系统的解决方案 336
7.2.2 统一的表示和存储机制 337
7.2.3 有效的模型分析功能 338
7.2.4 平台无关的接口 339
7.2.5 动态的可扩展结构 341
7.2.6 一个基于Web服务的分类原型系统 343
7.3 本章小结 352
本章参考文献 352
思考题 353
附录 数据挖掘产品特点与应用案例表 354