目录 1
第1章 绪论 1
1-1 什么是数据挖掘 1
1-2 为何进行数据挖掘 2
1-3 数据挖掘和统计分析的关系 3
1-4 数据挖掘与数据仓库的关系 3
1-5 数据挖掘系统和 4
其他系统的比较 4
1-5-1 数据挖掘系统 4
与专家系统的比较 4
1-5-2 数据挖掘和OLAP 6
的比较 6
1-6 数据挖掘系统的分类 6
2-1 问题定义与主题分析 9
第2章数据挖掘过程 9
2-2 数据准备 10
2-2-1 数据清理 10
2-2-2 数据集成 11
2-2-3 数据选择 12
2-2-4 数据变换 13
2-2-5 数据归约 13
2-2-6 数据质量分析 16
2-3 建立模型 17
2-3-1 模型是什么 17
2-3-2 模型的精确度 18
2-3-3 模型的验证 19
2-4 模式评估 19
2-4-1 模式是什么 20
和验证 21
2-4-2 挖掘结果的评价 21
2-5 数据可视化和知识管理 22
2-5-1 可视化表示 22
2-5-2 知识管理 23
第3章 关联规则 25
3-1 概述 25
3-1-1 啤酒和尿布问题 25
3-1-2 基本概念 25
3-2 关联规则 26
3-2-1 概念分层 26
3-2-2 兴趣度 29
3-2-3 数据库中关联规则 29
的发现 29
的Apriori算法 31
3-3 关联规则学习 31
3-3-1 使用候选项集 32
找频繁项集 32
3-3-2 由频繁项集 33
产生关联规则 33
3-4 挖掘关联规则的多策略方法 33
3-4-1 多层关联规则 33
3-4-2 多维关联规则 36
第4章 决策树 37
4-1 什么是决策树 37
4-2 决策树的原理 37
4-2-1 归纳学习 37
4-2-2 决策树的表示 38
4-2-3 决策树学习 38
4-2-4 ID3算法 40
4-2-5 树剪枝 45
4-3 决策树的应用 46
4-3-1 规则提取 46
4-3-2 分类 46
4-4 决策树的优缺点 47
第5章 聚类分析 49
5-1 概述 49
5-1-1 什么是聚类分析 49
5-1-2 聚类分析的预备知识 50
5-1-3 聚类方法的分类 51
5-2 基于划分的聚类算法 52
5-2-1 基于划分的评价函数 53
5-2-2 k-平均方法 53
5-2-3 k-中心点方法 54
5-3 层次聚类 55
5-3-1 凝聚方法 55
5-3-2 分裂方法 56
5-4 孤立点分析 56
5-4-1 基于统计的 56
孤立点检测 56
5-4-2 基于距离的 57
孤立点检测 57
5-4-3 基于偏离的 57
孤立点检测 57
第6章 基于样例的学习 59
6-1 概述 59
6-2 k-最近邻算法 59
6-2-2 k-最近邻算法 60
6-2-1 基本思想 60
6-2-3 距离加权最近邻算法 61
6-3 基于样例的推理 62
6-3-1 CBR过程 63
6-3-2 样例的表示 64
6-3-3 相似性关系 66
6-3-4 样例的修正和调整 67
第7章 贝叶斯学习 69
7-1 贝叶斯理论 69
7-1-1 贝叶斯理论的 69
基本理念 69
7-1-2 贝叶斯定理 69
7-1-3 极大似然和最小误差平方假设 71
7-2 朴素贝叶斯分类 73
结构 75
7-3 贝叶斯信念网络 75
7-3-1 贝叶斯信念网络的 75
7-3-2 贝叶斯信念网络的 78
训练 78
7-4 贝叶斯分类的应用 78
第8章 粗糙集 81
8-1 关于知识的观点 81
8-2 粗糙集理论的知识发现 83
8-3 决策表的定义 85
8-4 数据离散化 85
8-5 决策规则的获取 87
8-6 粗糙集的化简 88
8-6-1 属性的化简 88
8-6-2 一致决策表的化简 89
8-6-3 属性重要性度量 93
9-1 什么是神经网络 95
第9章 神经网络 95
9-2 神经网络的表示和学习 96
9-2-1 基本神经元模型 97
9-2-2 基本的神经网络模型 97
9-2-3 感知器 99
9-2-4 神经网络的学习 103
9-3 多层前馈神经网络 105
9-3-1 前馈神经网络模型 106
和表征能力 106
9-3-2 后向传播算法 106
9-3-3 后向传播法则的 108
推导 108
9-4 反馈式神经网络 110
9-4-1 离散型神经网络 112
9-4-2 连续型神经网络 115
9-5 神经网络的应用之一 117
——聚类 117
第10章 遗传算法 123
10-1 遗传算法概述 123
10-1-1 基本思想和术语 123
10-1-2 遗传算法的基础 125
10-1-3 遗传算法的特点 131
10-2 基本遗传算法 133
10-3 遗传算法的实现技术 135
10-3-1 编码方法 135
10-3-2 适应性度量 139
10-3-3 选择策略 140
遗传算子 143
10-3-4 交叉和变异 143
10-4 遗传算法的理论分析 144
10-4-1 模式定理 144
10-4-2 积木块假设 147
与欺骗问题 147
10-4-3 隐并行性 151
10-4-4 遗传算法的收敛性分析 153
10-5 遗传算法的应用实例 157
第11章 统计分析 163
11-1 样本和统计推理 163
11-1-1 通过概率分布 163
和密度描述数据 163
11-12 置信区间的推导 165
回归模型 168
11-2-1 具有线性结构的 168
1 1-2 回归分析 168
11-2-2 最小二乘法拟合 169
11-2-3 多元线性回归 171
11-2-4 非线性回归 172
数据分析 172
11-3 主成分分析 172
11-3-1 高维数据综合 173
简化的思想和原则 173
11-3-2 主成分分析的算法推导 173
第12章 文本和Web挖掘 177
12-1 概述 177
12-1-1 文本挖掘的任务 177
12-1-2 Web挖掘的特点 177
12-1-3 Web挖掘的任务 178
空间表示 179
12-2-1 文本的向量 179
12-2 文本挖掘技术 179
12-2-2 文本特征的提取 180
12-2-3 文本信息挖掘系统 182
12-3 Web数据挖掘技术 182
12-3-1 Web结构挖掘 183
12-3-2 Web使用记录的 185
挖掘 185
12-3-3 Web内容挖掘 186
12-3-4 个人偏好建模 186
12-4 文本和Web挖掘的应用 187
12-4-1 文档分类 187
12-4-2 自动推荐系统 188
13-1-1 空间数据库 191
13-1 空间数据挖掘 191
和发展趋势 191
第13章 数据挖掘的应用 191
13-1-2 空间数据挖掘 192
发现的知识类型 192
13-1-3 空间数据挖掘方法 193
13-2 图像检索和挖掘 194
13-2-1 基于内容的检索 195
13-2-2 图像数据库挖掘 195
13-3 时间序列和序列检索 196
13-3-1 序列模式分析 196
13-3-2 时间序列数据 197
13-3-3 趋势分析 197
13-3-4 时序分析 198
13-4 隐私面临的挑战 199
系统的不足 201
14-1-1 传统的信息 201
实例分析 201
14-1 商业智能概述 201
第14章 商业智能解决方案 201
14-1-2 什么是商业智能 202
14-2 商业智能系统的 203
处理流程和框架 203
14-2-1 商业智能系统的 203
处理流程 203
14-2-2 商业智能 204
系统的框架 204
14-3 商业智能解决方案 204
14-3-1 概述 205
14-3-2 数据仓库 205
14-3-3 数据仓库管理 207
14-3-4 数据清洗和转换 208
14-3-5 在线分析 209
14-3-6 前端工具 209
14-3-7 数据挖掘 210
附录A IBM DB2 Intelligent 211
Miner简介 211
A-1 DB2 Intelligent Miner功能简介 211
A-2 DB2 Intelligent Miner for Data使用简介 212
A-2-1 业务定义 212
A-2-2 定义数据对象 213
A-3 创建模型 216
A-4 模型应用 222
A-5 创建统计函数 228
A-6 解释挖掘结果 231
参考文献 233