第1章 绪论 1
1.1 应用背景 1
1.1.1 商业上的驱动 2
1.1.2 科学研究上的驱动 2
1.1.3 数据挖掘伴随着数据库技术而出现 2
1.2 什么是数据挖掘 3
1.2.1 基本描述 3
1.2.2 关于知识发现 4
1.3 数据挖掘的主要技术 5
1.4 数据挖掘的主要研究内容 7
1.5 数据挖掘面临的主要问题 10
1.6 数据挖掘相关的资料 11
1.7 本书的总体章节安排 12
1.8 小结 13
参考文献 13
第2章 数据预处理 14
2.1 前言 14
2.2 数据预处理的基本概念 14
2.2.1 数据的基本概念 14
2.2.2 为什么要进行数据预处理 17
2.2.3 数据预处理的任务 18
2.3 数据的描述 18
2.3.1 描述数据的中心趋势 19
2.3.2 描述数据的分散程度 21
2.3.3 描述数据的其他方式 22
2.4 数据清洗 24
2.4.1 数据缺失的处理 24
2.4.2 数据清洗 25
2.5 数据集成和转换 27
2.5.1 数据集成 27
2.5.2 数据冗余性 27
2.5.3 数据转换 29
2.6 数据归约和变换 30
2.6.1 数据归约 30
2.6.2 数据离散化 33
2.6.3 概念层次生成 34
2.7 小结 35
参考文献 36
第3章 数据仓库 37
3.1 前言 37
3.2 数据库基本概念回顾 37
3.2.1 数据库简介 38
3.2.2 表、记录和域 38
3.2.3 数据库管理系统 38
3.3 数据仓库简介 39
3.3.1 数据仓库特点 39
3.3.2 数据仓库概念 40
3.3.3 数据仓库作用 41
3.3.4 数据仓库与DBMS对比 41
3.3.5 分离数据仓库的原因 42
3.4 多维数据模型 43
3.4.1 数据立方体 43
3.4.2 概念模型 45
3.4.3 概念分层 48
3.4.4 典型OLAP操作 49
3.4.5 星型网络的查询模型 51
3.5 数据仓库结构 52
3.5.1 数据仓库设计 52
3.5.2 多层体系结构 54
3.6 数据仓库的功能 55
3.6.1 数据立方体的有效计算 55
3.6.2 索引OLAP数据 60
3.6.3 OLAP查询的有效处理 61
3.7 从数据仓库到数据挖掘 61
3.7.1 数据仓库应用 61
3.7.2 从OLAP到OLAM 62
3.8 小结 64
参考文献 64
第4章 相关性与关联规则 66
4.1 基本概念 66
4.1.1 潜在的应用 66
4.1.2 购物篮问题 67
4.1.3 频繁模式分析、闭项集和关联规则 67
4.2 频繁项集挖掘方法 69
4.2.1 Apriori算法 69
4.2.2 由频繁项集产生关联规则 71
4.2.3 提高Apriori的效率 72
4.2.4 挖掘频繁项集的模式增长方法 73
4.3 多种关联规则挖掘 75
4.3.1 挖掘多层关联规则 75
4.3.2 挖掘多维关联规则 77
4.3.3 挖掘量化关联规则 78
4.4 从关联分析到相关分析 79
4.4.1 相关分析 80
4.4.2 强规则不一定是有价值的 80
4.4.3 挖掘高度关联的模式 81
4.5 基于约束的频繁模式挖掘 82
4.5.1 关联规则的元规则制导挖掘 82
4.5.2 基于约束的模式生成:模式空间剪枝和数据空间剪枝 83
4.6 小结 85
参考文献 85
第5章 分类和预测 89
5.1 前言 89
5.2 基本概念 89
5.2.1 什么是分类 89
5.2.2 什么是预测 91
5.3 关于分类和预测的问题 91
5.3.1 准备分类和预测的数据 91
5.3.2 评价分类和预测方法 91
5.4 决策树分类 92
5.4.1 决策树归纳 93
5.4.2 属性选择度量 93
5.4.3 提取分类规则 96
5.4.4 基本决策树归纳的增强 97
5.4.5 在大数据集中的分类 97
5.5 贝叶斯分类 97
5.5.1 贝叶斯定理 98
5.5.2 朴素贝叶斯分类 98
5.5.3 贝叶斯信念网络 100
5.5.4 贝叶斯网络学习 101
5.6 神经网络 102
5.6.1 神经网络简介 103
5.6.2 多层神经网络 103
5.6.3 神经网络训练 104
5.6.4 后向传播 104
5.6.5 网络剪枝和规则抽取 106
5.7 支持向量机 106
5.7.1 数据线性可分的情况 107
5.7.2 数据线性不可分的情况 109
5.7.3 支持向量机和神经网络的对比 111
5.8 关联分类 111
5.8.1 为什么有效 111
5.8.2 常见关联分类算法 112
5.9 分类准确率 112
5.9.1 估计错误率 113
5.9.2 装袋和提升 113
5.10 小结 115
参考文献 115
第6章 聚类分析 117
6.1 聚类分析的定义和数据类型 117
6.1.1 聚类的定义 117
6.1.2 聚类分析和主要应用 118
6.1.3 聚类分析方法的性能指标 119
6.1.4 聚类分析使用的数据类型 119
6.2 流聚类方法分类与相似性质量 121
6.2.1 聚类分析方法分类 121
6.2.2 连续变量的距离与相似性度量 122
6.2.3 二元变量与标称变量的相似性度量 124
6.2.4 序数和比例标度变量的相似性度量 125
6.2.5 混合类型变量的相似性度量 125
6.3 基于分割的聚类 126
6.4 基于层次的聚类 129
6.5 基于密度的聚类 133
6.6 基于网格的聚类 134
6.7 基于模型的聚类 135
6.8 离群点检测 136
6.9 小结 137
参考文献 137
第7章 数据挖掘应用 139
7.1 前言 139
7.2 应用研发思路 140
7.3 预处理方法 140
7.3.1 基础数据说明 140
7.3.2 数字化方法说明 140
7.3.3 深入一步的预处理方法 142
7.3.4 基本数据分布情况说明 144
7.3.5 初步分析结果 145
7.3.6 小结 148
7.4 特征提取方法 148
7.4.1 8种特征提取方法 148
7.4.2 特征总体排名策略 149
7.4.3 最终关键特征 150
7.4.4 特征提取与分析结论 154
7.4.5 小结 155
7.5 皮肤特征预测模型 155
7.5.1 预测方法回顾 156
7.5.2 预测结果分析与结论 157
7.5.3 小结 168
7.6 小结 169
参考文献 170
附录 171
附录A 插图索引 171
附录B 表格索引 173
附录C 算法索引 174
附录D 关键词索引 174