前言 1
第一章 数据挖掘导论 1
1.1 数据挖掘发展简述 1
1.1.1 数据丰富与知识匮乏 1
1.1.2 从数据到知识 2
1.1.3 数据挖掘产生 3
1.2 数据挖掘基本知识 5
1.2.1 数据挖掘定义 5
1.2.2 数据挖掘深入 7
1.3 数据挖掘功能 9
1.3.1 概念描述:定性与对比 9
1.3.2 关联分析 11
1.3.3 分类与预测 11
1.3.4 聚类分析 12
1.3.5 异类分析 13
1.3.6 演化分析 13
1.4 数据挖掘结果的评估 14
1.5 数据挖掘系统 15
1.5.1 数据挖掘系统分类 15
1.5.2 数据挖掘系统应用 15
1.6 数据挖掘研究重点 18
1.7 本章小结 20
参考文献 20
第二章 数据预处理 22
2.1 数据预处理的重要性 22
2.2 数据清洗 23
2.2.1 遗漏数据处理 24
2.2.2 噪声数据处理 24
2.2.3 不一致数据处理 26
2.3 数据集成与转换 26
2.3.1 数据集成处理 26
2.3.2 数据转挟处理 27
2.4 数据消减 28
2.4.1 数据立方合计 29
2.4.2 维数消减 30
2.4.3 数据压缩 31
2.4.4 数据块消减 32
2.5 离散化和概念层次树生成 35
2.5.1 数值概念层次树生成 36
2.5.2 类别概念层次树生成 38
2.6 本章小结 39
参考文献 40
第三章 定性归纳 42
3.1 概念描述基本知识 42
3.2 数据泛化与概要描述 43
3.2.1 数据泛化中的数据立方方法 43
3.2.2 基于属性归纳方法 44
3.2.3 基于属性归纳算法 47
3.2.4 基于属性归纳结果的表示 48
3.3 属性相关分析 50
3.3.1 属性相关分析意义 50
3.3.2 属性相关分析方法 51
3.3.3 分析定性描述示例 52
3.4 挖掘概念对比描述 54
3.4.1 概念对比方法与实现 54
3.4.2 概念对比描述的表示 56
3.4.3 概念的定性与对比描述的表示 57
3.5 挖掘大数据库的描述型统计信息 58
3.5.1 计算中心趋势 59
3.5.2 计算数据分布 59
3.6 方法讨论 60
3.6.1 概念描述:经典机器学习比较 61
3.6.2 概念描述的递增和并行挖掘 61
3.7 本章小结 62
参考文献 62
第四章 分类与预测 64
4.1 分类与预测基本知识 64
4.2 有关分类和预测的若干问题 66
4.3.1 决策树生成算法 67
4.3 基于决策树的分类 67
4.3.2 属性选择方法 68
4.3.3 树枝修剪 71
4.3.4 决策树中分类规则获取 72
4.3.5 基本决策树方法的改进 72
4.3.6 决策树归纳的可扩展性 73
4.3.7 数据仓库技术与决策树归纳的结合 74
4.4 贝叶斯分类方法 76
4.4.1 贝叶斯定理 76
4.4.2 基本贝叶斯分类方法 77
4.4.3 贝叶斯信念网络 78
4.4.4 贝叶斯信念网络的学习 80
4.5 神经网络分类方法 81
4.5.1 多层前馈神经网络 81
4.5.2 神经网络结构 82
4.5.3 后传方法 82
4.5.4 后传方法和可理解性 85
4.6 基于关联的分类方法 87
4.7.1 k-最近邻方法 88
4.7 其它分类方法 88
4.7.2 基于示例推理 89
4.7.3 遗传算法 89
4.7.4 粗糙集方法 90
4.7.5 模糊集合方法 90
4.8 预测方法 91
4.8.1 线性与多变量回归 91
4.9 分类器准确性 93
4.8.2 非线性回归 93
4.8.3 其它回归模型 93
4.9.1 分类器准确性估计 94
4.9.2 提高分类器准确性 95
4.9.3 有关分类器准确性的若干问题 95
4.10 本章小结 96
参考文献 97
5.1.1 购物分析:关联挖掘 100
第五章 关联挖掘 100
5.1 关联规则挖掘 100
5.1.2 基本概念 101
5.1.3 关联规则挖掘分类 102
5.2 单维布尔关联规则挖掘 103
5.2.1 Apriori算法 103
5.2.2 关联规则的生成 107
5.2.3 Apriori算法的改进 108
5.3 挖掘多层次关联规则 110
5.3.1 多层次关联规则 110
5.3.2 挖掘多层次关联规则方法 111
5.3.3 多层次关联规则的冗余 114
5.4 多维关联规则的挖掘 115
5.4.1 多维关联规则 115
5.4.2 利用静态离散挖掘多维关联规则 116
5.4.3 挖掘定量关联规则 117
5.4.4 挖掘基于距离的关联规则 118
5.5 关联挖掘中的相关分析 120
5.5.1 无意义强关联规则示例 120
5.5.2 从关联分析到相关分析 122
5.6 基于约束的关联挖掘 122
5.6.1 基于元规则的关联挖掘 122
5.6.2 基于规则约束的关联挖掘 123
5.7 本章小结 125
参考文献 126
第六章 聚类分析 129
6.1 聚类分析概念 129
6.2 聚类分析中的数据类型 131
6.2.1 间隔数值属性 132
6.2.2 二值属性 133
6.2.3 符号、顺序和比例数值属性 135
6.2.4 混合类型属性 136
6.3 主要聚类方法 137
6.4 划分方法 138
6.4.1 传统划分方法 139
6.5.2 两种层次聚类方法 140
6.4.2 大数据库的划分方法 142
6.5 层次方法 143
6.5.1 两种基本层次聚类方法 143
6.5.3 层次聚类方法:CURE 146
6.5.4 层次聚类方法:CHAMALEON 147
6.6.1 基于密度方法:DBSCAN 149
6.6 基于密度方法 149
6.6.2 基于密度方法:OPTICS 150
6.7 基于网格方法 151
6.7.1 基于网格方法:STING 151
6.7.2 基于网格方法:CLIQUE 152
6.8 基于模型聚类方法 154
6.8.1 统计方法 154
6.8.2 神经网络方法 155
6.9.1 基于统计的异常检测方法 157
6.9 异常数据分析 157
6.9.2 基于距离的异常检测方法 158
6.9.3 基于偏差的异常检测方法 159
6.10 本章小结 161
参考文献 162
第七章 复杂数据的挖掘 164
7.1 多维分析与描述性知识挖掘 164
7.1.1 结构数据的泛化 164
7.1.2 空间和多媒体数据的泛化 165
7.1.3 对象类/子类层次的泛化 166
7.1.4 继承和产生性质的泛化 166
7.1.5 类组成结构的泛化 167
7.1.6 对象立方的构造与挖掘 167
7.1.7 基于泛化的挖掘 167
7.2 空间数据库挖掘 170
7.2.1 空间数据立方与OLAP 170
7.2.2 空间关联分析 173
7.2.3 空间聚类分析 174
7.2.4 空间分类与趋势分析 174
7.2.5 光栅数据库挖掘 174
7.3 多媒体数据库挖掘 175
7.3.1 多媒体数据的相似搜索 175
7.3.2 多媒体的多维分析 176
7.3.3 多媒体数据分类与预测分析 177
7.3.4 多媒体数据的关联分析 178
7.4 时序数据和序列数据挖掘 178
7.4.1 趋势分析 179
7.4.2 时序数据中的相似搜索 180
7.4.3 序列模式挖掘 182
7.4.4 周期性分析 183
7.5 文本数据库挖掘 183
7.5.1 文本数据分析和信息检索 184
7.5.2 文本挖掘 187
7.6 互联网挖掘 188
7.6.1 Web链接挖掘 189
7.6.2 Web文档自动分类 190
7.6.3 构造多层次Web信息库 191
7.6.4 Web使用的挖掘 192
7.7 本章小结 192
参考文献 193
8.1 Web信息挖掘简介 196
8.1.1 Web信息挖掘意义 196
第八章 互联网信息挖掘 196
8.1.2 Web网页基本搜索方法 197
8.2 Web网页智能搜索 201
8.2.1 Web信息搜索工具包:WebSuite 201
8.2.2 基于主题的Web信息搜索 202
8.2.3 基于强化学习的Web搜索 204
8.3 Web网页信息抽取 206
8.3.1 基于层次结构的信息抽取:STALKER 206
8.3.2 可视化网页信息抽取:W4F 210
8.3.3 基于概念模型的多记录信息抽取 213
8.4 Web信息的自主搜索 218
8.4.1 自主搜索的重要性 218
8.4.2 自主搜索问题描述 219
8.4.3 自主搜索知识表示 219
8.4.4 自主搜索算法 223
8.4.5 搜索知识的获取方法 226
8.5 Web信息的自主抽取 229
8.5.1 信息抽取的应用 229
8.5.2 信息抽取问题描述 230
8.5.3 抽取知识表示方法 231
8.5.4 Web抽取知识表示方法 235
8.5.5 信息抽取算法 238
8.5.6 抽取知识的获取 243
8.6 Web个性化信息服务 245
8.6.1 个性化信息服务意义 245
8.6.2 个性化信息服务问题描述 246
8.6.3 个性化信息需求描述 247
8.6.4 信息的搜索与获取 249
8.6.5 信息集成 253
8.7 本章小结 254
参考文献 255
第九章 互联网使用挖掘 259
9.1 Web使用挖掘的应用 259
9.2 数据源与数据模型 262
9.2.1 Web数据源 262
9.2.2 数据建模 264
9.3.1 结构预处理 265
9.3 网站结构与内容的预处理 265
9.3.2 内容预处理 267
9.4 网站使用数据的预处理 268
9.4.1 数据清洗 269
9.4.2 用户与会话识别 269
9.4.3 网页浏览识别 273
9.4.4 补全路径 275
9.5.1 模式发现方法概述 278
9.5 使用模式挖掘方法 278
9.5.2 模式挖掘算法 279
9.6 使用模式评估 282
9.6.1 有趣性评估标准 282
9.6.2 信息过滤器 283
9.6.3 证据量化 285
9.6.4 结构证据量化 287
9.6.5 内容证据量化 289
9.7 本章小结 290
参考文献 290
第十章 网络安全数据挖掘 293
10.1 入侵检测中的数据挖掘 293
10.1.1 网络安全概述 293
10.1.2 存在的问题 294
10.1.3 审计数据的挖掘 295
10.1.4 基于属性趣味的挖掘 295
10.1.5 挖掘模式的使用 299
10.1.6 错误使用的检测应用 303
10.2 邮件病毒检测中的数据挖掘 304
10.2.1 恶意邮件过滤器概述 304
10.2.2 与Proemail的结合 306
10.2.3 监视邮件附件的传播 307
10.2.4 基于数据挖掘的检测模型 307
10.2.5 恶意邮件附件的检测方法 308
10.2.6 恶意邮件附件的检测实验结果 308
10.3 病毒程序检测中的数据挖掘 309
10.3.1 恶意程序检测概述 309
10.3.2 恶意程序的检测方法 310
10.3.3 恶意程序的特征抽取 311
10.3.4 恶意程序的检测算法 313
10.3.5 恶意程序的检测模型 314
10.3.6 恶意程序的检测结果 315
10.4 本章小结 316
参考文献 317