第1章 绪论 1
1.1 数据挖掘的概念和定义 1
1.1.1 从商业角度看数据挖掘技术 1
1.1.2 数据挖掘的技术含义 1
1.2 数据挖掘的历史及发展 2
1.3 数据挖掘的研究内容及功能 4
1.3.1 数据挖掘的研究内容 4
1.3.2 数据挖掘的功能 6
1.4 数据挖掘的常用技术及工具 8
1.4.1 数据挖掘的常用技术 8
1.4.2 数据挖掘的工具 8
1.5 数据挖掘的应用热点 9
1.6 小结 10
习题 10
第2章 数据预处理 11
2.1 数据预处理的目的 11
2.2 数据清理 12
2.2.1 空缺值 12
2.2.2 噪声数据 13
2.2.3 不一致数据 14
2.3 数据集成和数据变换 14
2.3.1 数据集成 15
2.3.2 数据变换 15
2.4 数据归约 17
2.4.1 维归约 17
2.4.2 数据压缩 18
2.4.3 数值归约 19
2.5 数据离散化和概念分层 22
2.5.1 数值数据的离散化和概念分层生成 22
2.5.2 分类数据的概念分层生成 24
2.6 特征选择与提取 25
2.6.1 基本概念 25
2.6.2 特征提取 26
2.6.3 特征选择 26
2.7 小结 27
习题 28
第3章 关联规则挖掘 29
3.1 基本概念 29
3.2 关联规则挖掘算法 30
3.2.1 项目集空间理论 30
3.2.2 经典的发现频繁项目集算法 31
3.2.3 由频繁项集产生关联规则 35
3.3 Apriori改进算法 37
3.3.1 Apriori算法的瓶颈 37
3.3.2 改进算法 37
3.4 不候选产生挖掘频繁项集 38
3.5 使用垂直数据格式挖掘频繁项集 41
3.6 挖掘闭频繁项集 42
3.7 挖掘各种类型的关联规则 47
3.7.1 挖掘多层关联规则 47
3.7.2 多维关联规则挖掘 50
3.8 相关分析 51
3.8.1 强关联规则不一定有趣的例子 52
3.8.2 从关联分析到相关分析 52
3.9 基于约束的关联规则 55
3.9.1 关联规则的元规则制导挖掘 55
3.9.2 规则约束制导的挖掘 56
3.10 矢量空间数据库中关联规则的挖掘 58
3.10.1 问题的提出 58
3.10.2 面向空间数据挖掘的数据准备 58
3.10.3 矢量空间数据库中关联规则挖掘 60
3.10.4 应用实例 61
3.11 小结 62
习题 64
第4章 分类和预测 65
4.1 分类和预测的基本概念和步骤 65
4.2 基于相似性的分类算法 67
4.3 决策树分类算法 69
4.3.1 决策树基本算法概述 70
4.3.2 ID3算法 71
4.3.3 C4.5算法 77
4.4 贝叶斯分类算法 80
4.4.1 贝叶斯定理 80
4.4.2 朴素贝叶斯分类 80
4.4.3 贝叶斯信念网 83
4.5 人工神经网络(ANN) 86
4.5.1 人工神经网络的基本概念 86
4.5.2 感知器 89
4.5.3 多层人工神经网络 91
4.6 支持向量机 95
4.6.1 最大边缘超平面 95
4.6.2 线性支持向量机:可分情况 97
4.6.3 线性支持向量机:不可分情况 101
4.6.4 非线性支持向量机 103
4.6.5 支持向量机的特征 106
4.7 预测 107
4.7.1 线性回归 107
4.7.2 非线性回归 109
4.7.3 其他基于回归的方法 109
4.8 预测和分类中的准确率、误差的度量 110
4.8.1 分类器准确率度量 110
4.8.2 预测器误差度量 112
4.9 评估分类器或预测器的准确率 113
4.9.1 保持方法和随机子抽样 113
4.9.2 交叉确认 113
4.9.3 自助法 113
4.10 小结 114
习题 115
第5章 聚类方法 118
5.1 概述 118
5.1.1 聚类分析在数据挖掘中的应用 119
5.1.2 聚类分析算法的概念与基本分类 119
5.1.3 距离与相似性的度量 122
5.2 划分聚类方法 123
5.2.1 k-平均算法 124
5.2.2 k-中心点算法 125
5.2.3 基于遗传算法的k-中心点聚类算法 127
5.3 层次聚类方法 130
5.3.1 凝聚和分裂层次聚类 130
5.3.2 BIRCH聚类算法 132
5.3.3 CURE聚类算法 134
5.3.4 Chameleon聚类算法 136
5.4 密度聚类方法 139
5.4.1 DBSCAN 139
5.4.2 OPTICS:通过点排序识别聚类结构 143
5.5 基于网格聚类方法 146
5.5.1 基本的基于网格聚类算法 146
5.5.2 STING:统计信息网格 149
5.5.3 WaveCluster:利用小波变换聚类 150
5.5.4 CLIQUE:维增长子空间聚类方法 151
5.6 神经网络聚类方法:SOM 153
5.7 异常检测 156
5.7.1 预备知识 157
5.7.2 统计方法 160
5.7.3 基于邻近度的离群点检测 164
5.7.4 基于密度的离群点检测 166
5.7.5 基于聚类的技术 168
5.8 小结 171
习题 172
第6章 时间序列数据挖掘 173
6.1 概述 173
6.2 时间序列数据建模 173
6.3 时间序列预测 175
6.3.1 局域线性化方法 175
6.3.2 局域线性化方法的改进 175
6.3.3 神经网络方法 177
6.4 时间序列数据库相似搜索 178
6.4.1 问题描述 178
6.4.2 时间序列相似性定义 178
6.4.3 高级数据表示与索引 178
6.4.4 相似搜索算法的性能评价 181
6.5 从时间序列数据中发现感兴趣模式 182
6.5.1 发现周期模式 182
6.5.2 发现例外模式 183
6.6 小结 190
习题 190
第7章 Web挖掘 191
7.1 Web挖掘的分类及其数据来源 191
7.1.1 Web挖掘的分类 191
7.1.2 Web数据来源 193
7.2 Web日志挖掘 193
7.3 Web内容挖掘 195
7.4 小结 195
习题 196
第8章 复杂类型数据挖掘 197
8.1 空间数据挖掘 197
8.1.1 空间数据挖掘的基础 198
8.1.2 空间数据挖掘的过程 202
8.1.3 空间统计学 204
8.1.4 空间数据立方体构造和空间OLAP 205
8.1.5 空间关联和并置模式 208
8.1.6 空间聚类方法 209
8.1.7 空间分类和空间趋势分析 230
8.2 文本数据挖掘 230
8.2.1 文本数据分析和信息检索 230
8.2.2 文本的维度归约 235
8.2.3 文本挖掘方法 237
8.3 多媒体数据挖掘 240
8.3.1 多媒体数据的相似性搜索 240
8.3.2 多媒体数据的多维分析 241
8.3.3 多媒体数据的分类和预测分析 242
8.3.4 基于分类规则挖掘的遥感影像分类 243
8.3.5 挖掘多媒体数据中的关联 250
8.3.6 音频和视频数据挖掘 250
8.4 小结 251
习题 252
参考文献 254