第一章 数据挖掘概述 1
1.1 什么是数据挖掘 2
1.2 数据挖掘的应用 2
1.3 数据挖掘方法论 8
第二章 数据理解和数据准备 12
2.1 数据理解 14
2.2 数据准备 16
2.3 使用SAS进行数据理解和数据准备:FNBA信用卡数据 29
第三章 关联规则挖掘 39
3.1 关联规则的实际意义 40
3.2 关联规则的基本概念及Apriori算法 41
3.3 负关联规则 45
3.4 序列关联规则 47
3.5 使用SAS进行关联规则挖掘 48
第四章 多元统计中的降维方法 52
4.1 主成分分析 53
4.2 探索性因子分析 59
4.3 多维标度分析 65
第五章 聚类分析 70
5.1 距离与相似度的度量 72
5.2 k均值聚类法 76
5.3 层次聚类法 79
第六章 预测性建模的一些基本方法 85
6.1 判别分析 86
6.2 朴素贝叶斯分类算法 88
6.3 k近邻法 89
6.4 线性模型与广义线性模型 91
第七章 神经网络 99
7.1 神经网络架构及基本组成 100
7.2 误差函数 106
7.3 神经网络训练算法 110
7.4 提高神经网络模型的可推广性 114
7.5 数据预处理 116
7.6 使用SAS建立神经网络模型 117
7.7 自组织图 129
第八章 决策树 136
8.1 决策树简介 137
8.2 决策树的生长与修剪 139
8.3 对缺失数据的处理 145
8.4 变量选择 146
8.5 决策树的优缺点 147
第九章 模型评估 158
9.1 因变量为二分变量的情形 159
9.2 因变量为多分变量的情形 169
9.3 因变量为连续变量的情形 170
9.4 使用SAS评估模型 171
第十章 模型组合与两阶段模型 175
10.1 模型组合 176
10.2 随机森林 180
10.3 两阶段模型 182
参考文献 184