第1章 数据挖掘概述 1
1.1数据挖掘简介 1
1.1.1数据、信息和知识 1
1.1.2数据挖掘的定义 2
1.2数据挖掘过程 2
1.3数据挖掘方法 5
1.4数据挖掘工具及软件 7
第2章 Clementine概述 10
2.1 Clementine简介 10
2.2 Clementine基本操作 11
2.2.1 Clementine主窗口 11
2.2.2 数据流的基本操作 13
第3章 决策树 15
3.1分类与决策树概述 15
3.1.1分类与预测 15
3.1.2决策树的基本原理 15
3.2 ID3、C4.5与C5.0 18
3.2.1 ID3 18
3.2.2 C4.5 23
3.2.3 C5.0 26
3.2.4在Clementine中应用C5.0 27
3.3 CART 40
3.3.1生成最大树 40
3.3.2树的修剪 43
3.3.3子树评估 45
3.3.4在Clementine中应用CART 46
第4章 聚类分析 54
4.1聚类分析概述 54
4.1.1聚类分析的概念 54
4.1.2聚类分析的基本方法 55
4.2 K-Means算法 57
4.2.1数据预处理 57
4.2.2K-Means算法流程 59
4.2.3在Clementine中应用K-Means 60
4.3 TwoStep算法 68
4.3.1构建CF树 68
4.3.2聚类 70
4.3.3在Clementine中应用TwoStep 72
第5章 关联规则 75
5.1 关联规则概述 75
5.1.1关联规则的定义 75
5.1.2关联规则的基本概念 76
5.1.3关联规则挖掘算法 77
5.2 Apriori算法 78
5.2.1 Apriori算法原理 78
5.2.2在Clementine中应用Apriori算法 83
5.3 CARMA算法 90
5.3.1 CARMA算法原理 90
5.3.2在Clementine中应用CARMA算法 95
5.4序列模式 105
5.4.1序列与序列模式 105
5.4.2序列模式挖掘算法 106
5.4.3在Clementine中应用序列模式挖掘 110
第6章 数据筛选 116
6.1特征选择 116
6.1.1特征选择算法概述 116
6.1.2筛选 117
6.1.3分级 118
6.1.4选择 128
6.1.5在Clementine中应用特征选择 129
6.2异常检测 133
6.2.1异常数据挖掘概述 133
6.2.2异常检测算法 136
6.2.3在Clementine中应用异常检测 141
第7章 统计模型 149
7.1线性回归 149
7.1.1线性回归的基本原理 149
7.1.2在Clementine中应用线性回归 154
7.2二项Logistic回归 162
7.2.1二项Logistic回归的基本原理 162
7.2.2在Clementine中应用Logistic回归 167
第8章 神经网络 175
8.1神经网络原理 175
8.1.1神经网络基本概念 175
8.1.2神经网络及其学习 177
8.2多层感知器与RBF网络 179
8.2.1多层感知器 179
8.2.2径向基函数网络 184
8.2.3在Clementine中应用神经网络 187
8.3 Kohonen网络 195
8.3.1自组织神经网络 195
8.3.2自组织特征映射网络 196
8.3.3在Clementine中应用Kohonen网络 200
第9章 时间序列分析与预测 205
9.1时间序列概述 205
9.1.1时间序列基本概念 205
9.1.2时间序列预测的传统方法 206
9.2指数平滑法 208
9.2.1指数平滑法概述 208
9.2.2指数平滑模型 208
9.3 ARIMA模型 213
9.3.1 ARMA模型 214
9.3.2差分运算与ARIMA模型 219
9.3.3 ARIMA建模过程 221
9.3.4在Clementine中应用时间序列分析 225
参考文献 236