第一章 介绍 1
1.1 这本书的读者对象 1
1.2 什么是数据挖掘 1
1.3 数据挖掘的用途 2
1.4 数据挖掘的起源 3
1.5 术语和注释 3
1.6 数据集合的组织 5
1.7 数据挖掘迅速发展的因素 5
第二章 数据挖掘过程概览 7
2.1 数据挖掘的核心思想 7
2.2 有约束学习和无约束学习 10
2.3 数据挖掘的步骤 10
2.4 SEMMA 12
2.5 预备阶段 12
附录:数据分块方法 18
2.6 建立模型——线性回归的一个例子 20
第三章 有约束学习——分类和预测 26
3.1 一个分两类的分类法 26
3.2 贝叶斯最小误差法则 27
3.3 采用分类误差作为标准的分类方法评价 29
3.4 不对称错误分类代价和贝叶斯风险 31
3.5 分层采样和不对称代价 32
3.6 推广到多于两类的情况 32
3.7 提升图 33
3.8 波士顿住房(两类) 33
3.9 采用三分(Triage)策略的分类 37
第四章 多元线性回归 38
4.1 多元线性回归复习 38
4.2 回归过程举例 40
4.3 线性回归的自变量选择 43
4.4 线性回归分析的一般步骤 48
第五章 Logistic回归 50
5.1 一个简单例子 50
5.2 Logistic回归模型 52
5.3 机会比(Odds Ratio) 54
5.4 概率 56
5.5 模型拟合的又一个例子 57
附录A:同归系数的极大似然估计和置信区间计算 60
附录B:使用西南财大数据挖掘系统对波士顿住宅区的数据处理 62
第六章 神经网络 65
6.1 神经元(一个数学模型) 65
6.2 神经网络 66
6.3 费歇尔(Fisher)的鸢尾花数据 68
6.4 后向传播算法——分类 70
6.5 调整网络用于预测 71
6.6 多个区域最优和遍数 71
6.7 过分拟合和训练遍数的选择 72
6.8 结构的适应性选择 72
6.9 成功应用的例子 72
附录:使用西南财大数据挖掘系统的神经网络分类演示 73
第七章 分类与回归树 75
7.1 分类树 75
7.2 递归分区 75
7.3 骑乘式割草机(Riding Mowers) 76
7.4 剪枝(Pruning) 81
7.5 最小误差树(Minimum Error Tree) 84
7.6 最佳剪枝树(Best Pruned Tree) 85
7.7 树的分类规则 86
7.8 回归树(Regression Trees) 86
附录:西南财大数据挖掘系统分类树介绍 87
第八章 判别分析 91
8.1 骑乘式割草机 91
8.2 Fisher的线性判别函数 91
8.3 贝叶斯线性分类函数 93
8.4 距离度量 95
8.5 分类误差 96
8.6 鸢尾花的分类 96
附录A:马氏距离 99
附录B:西南财大数据挖掘系统的判别分析 99
第九章 其他有约束学习方法 102
9.1 K—最近邻点(K-NN) 102
9.2 简单贝叶斯(Naive Bayes) 105
9.3 简单贝叶斯分类实例 108
第十章 关联分析——关联法则 110
10.1 发现交易数据库里的关联法则 110
10.2 支持度和置信度 110
10.3 增益和重要性 113
10.4 相关系数和负关联法则 113
10.5 先验算法 114
10.6 缺点 117
第十一章 数据精简和探索 118
11.1 降维——主成分分析 118
11.2 成年长子的头部测量数值 118
11.3 主成分 119
11.4 葡萄酒的特征 121
11.5 数据标准化 124
11.6 主成分和正交最小二乘 125
第十二章 聚类分析 126
12.1 什么是聚类分析? 126
12.2 电力公司数据 126
12.3 层次聚类法 129
12.4 k—均值算法 130
12.5 相似测度 131
12.6 其他的距离测度 133
附录:西南财大数据挖掘系统的聚类分析 134