1 绪论 1
1.1 数据管理 1
1.1.1 人工管理阶段 1
1.1.2 文件系统阶段 1
1.1.3 数据库系统阶段 2
1.2 数据仓库和联机分析处理 2
1.3 数据挖掘和知识发现 4
1.3.1 数据挖掘的发展 4
1.3.4 数据挖掘过程 5
1.3.3 数据挖掘的目的 5
1.3.2 数据挖掘的对象 5
1.3.5 数据挖掘的分类 6
1.3.6 数据挖掘方法和技术 7
1.3.7 数据挖掘技术的难点 9
1.4 数据挖掘工具 10
1.4.1 数据挖掘工具的选择 11
1.4.2 数据挖掘原型系统 11
1.4.3 主要商业产品介绍 11
1.5 本章小结 12
2.1 数据仓库概念 14
2.1.1 数据仓库的产生 14
2 数据仓库和联机分析处理 14
2.1.2 数据仓库的定义 15
2.2 数据仓库中的数据组织 18
2.2.1 数据仓库的数据组织结构 18
2.2.2 数据仓库的系统结构 18
2.3 数据仓库的基本数据模型 19
2.3.1 星型模型 20
2.3.2 雪花模型 20
2.4 数据仓库的实现策略 21
2.6 联机分析处理 22
2.6.1 基本概念 22
2.5 数据仓库与联机分析处理 22
2.6.2 多维分析的基本分析动作 23
2.6.3 OLAP结构 25
2.6.4 OLTP和OLAP的比较 25
2.7 数据仓库与数据挖掘 26
2.8 本章小结 26
3 关联规则挖掘 27
3.1 基本概念 27
3.2 关联规则的Apriori算法 27
3.2.1 Apriori算法 28
3.2.2 AprioriTid算法 31
3.3 Apriori的改进算法 32
3.2.3 AprioriHybrid算法 32
3.3.2 基于数据分割(Partition)的方法 33
3.3.1 基于散列(Hash)的方法 33
3.3.3 基于采样(Sampling)的方法 34
3.4 基于FP-tree的关联规则挖掘算法FP-growth 34
3.4.1 算法描述 34
3.4.2 示例说明 35
3.5 多层关联规则挖掘 40
3.6 多维关联规则挖掘 41
3.7 基于约束的关联规则挖掘 41
3.8.1 基本概念 42
3.8 数量关联规则挖掘 42
3.8.2 数量关联规则的分类 43
3.8.3 数量关联规则挖掘的一般步骤 44
3.8.4 数值属性离散化问题 46
3.9 最大频繁项目集挖掘 48
3.9.1 最大频繁项目集 49
3.9.2 基于Apriori的最大频繁项目集挖掘算法 49
3.9.3 基于FP-tree的最大频繁项目集挖掘算法 50
3.10 关联规则更新挖掘算法 53
3.10.1 数据集的增量性更新挖掘算法 53
3.10.2 算法参数的相似性更新挖掘算法 57
3.10.3 基于FP-tree的关联规则更新挖掘算法 58
3.10.4 基于FP-tree的最大频繁项目集更新算法 60
3.11 一种新的支持度计算方法 63
3.11.1 基本概念 63
3.11.2 候选频繁项目集的生成 65
3.11.3 项目集支持数计算方法 65
3.12 负关联规则挖掘算法 66
3.12.1 基本概念 67
3.12.2 基于Apriori的负关联规则挖掘算法 68
3.12.3 基于频繁模式树的负关联规则挖掘算法 70
3.13 加权关联规则挖掘算法 71
3.13.1 加权关联规则模型 72
3.13.2 加权关联规则的发现 73
3.14 本章小结 77
4 序列模式挖掘 78
4.1 问题描述 78
4.2 类Apriori(Apriori-based)方法 79
4.3 GSP算法 82
4.4 基于投影的序列模式挖掘算法PrefixSpan 85
4.4.1 基本概念 85
4.4.2 算法描述 86
4.4.3 示例说明 87
4.5 SPADE方法 89
4.5.1 基本理论 89
4.5.2 支持数(度)计算 90
4.5.3 基于前缀分类的格分解 92
4.5.4 频繁序列模式搜索 93
4.5.5 SPADE算法的设计和实现 94
4.6 序列模式增量式更新算法 96
4.6.1 基本概念 96
4.6.2 算法描述 98
4.6.3 示例说明 99
4.7 本章小结 101
5 分类 102
5.1 分类概述 102
5.2 决策树(Decision Tree)方法 103
5.2.1 决策树方法概述 103
5.2.2 决策树方法的理论基础 103
5.2.3 决策树的表示 106
5.2.4 决策树的生成 107
5.3 ID3决策树方法 108
5.3.1 ID3算法的决策属性选择方法 108
5.3.2 ID3算法示例 108
5.4.1 C4.5方法中决策树的构造 111
5.3.3 ID3的特点 111
5.4 C4.5方法 111
5.4.2 处理未知属性值的训练样本 112
5.4.3 连续属性的处理 112
5.4.4 决策树修剪 113
5.4.5 交叉验证 114
5.4.6 规则的抽取 115
5.5 IBLE决策规则树方法 116
5.6 SLIQ:一种快速可扩展的分类算法 117
5.6.1 算法的扩展性 117
5.6.2 SLIQ分类器 118
5.6.3 算法流程 120
5.7 SPRINT:一种可扩展的并行分类器 123
5.8 贝叶斯方法 126
5.8.1 贝叶斯理论 126
5.8.2 朴素贝叶斯分类 128
5.9 本章小结 129
6 聚类分析 130
6.1 什么是聚类分析 130
6.2 距离和相似系数 131
6.2.1 距离 132
6.2.2 相似系数 133
6.3.1 数据准备 135
6.3 聚类分析的过程 135
6.3.2 特征生成 137
6.3.3 聚类分析 137
6.4 聚类分析算法的分类 137
6.4.1 划分法 137
6.4.4 基于网格的方法 138
6.4.5 基于模型的方法 138
6.4.6 基于变换的聚类算法 138
6.4.3 基于密度的方法 138
6.4.2 层次方法 138
6.5 常用的聚类算法 139
6.5.1 划分法 139
6.5.2 层次方法 142
6.5.3 基于密度的方法 150
6.5.4 基于网格的聚类方法 158
6.5.5 基于模型的聚类方法 161
6.5.6 模糊聚类算法FCM 162
6.5.7 聚类算法性能评价 163
6.6 孤立点分析 164
6.7 高维空间聚类问题 167
6.8 本章小结 168
7.1 Web挖掘概述 169
7 Web挖掘 169
7.2 Web挖掘基本流程 170
7.3 Web挖掘分类 171
7.3.1 Web内容挖掘 171
7.3.2 Web结构挖掘 175
7.3.3 Web用法挖掘 178
7.4 Web挖掘的应用前景 182
7.5 本章小结 183
8 基于数据挖掘的医学图像分类 184
8.2 医学图像的特征描述 185
8.1 分类模型的基本框架 185
8.3 医学图像分割及局部组织特征的提取 186
8.3.1 医学图像分割 186
8.3.2 局部组织特征的提取 186
8.4 关联分类规则 188
8.4.1 关联分类规则 188
8.4.2 频繁关联分类规则挖掘算法 189
8.4.3 精确关联分类规则挖掘算法 190
8.5 规则比较与分析 190
8.6 本章小结 191
参考文献 192