第1章 数据挖掘和SPSS Modeler概述 1
1.1数据挖掘的产生背景 1
1.1.1海量数据的分析需求催生数据挖掘 1
1.1.2应用对理论的挑战催生数据挖掘 3
1.2什么是数据挖掘 5
1.2.1数据挖掘的概念 6
1.2.2数据挖掘能做什么 7
1.2.3数据挖掘得到的知识形式 8
1.2.4数据挖掘的算法分类 10
1.3 SPSS Modeler软件概述 12
1.3.1 SPSS Modeler的窗口 13
1.3.2数据流的基本管理和执行 15
1.3.3数据流的其他管理 17
1.3.4从一个示例看SPSS Modeler的使用 19
第2章 SPSS Modeler数据的读入 26
2.1变量的类型 26
2.1.1从数据挖掘角度看变量类型 26
2.1.2从数据存储角度看变量类型 27
2.2读入数据 27
2.2.1读自由格式的文本文件 27
2.2.2读Excel电子表格数据 31
2.2.3读SPSS格式文件 32
2.2.4读数据库文件 33
2.3生成实验方案数据 34
2.4合并数据 36
2.4.1数据的纵向合并 36
2.4.2数据的横向合并 39
第3章 SPSS Modeler变量的管理 42
3.1变量说明 42
3.1.1取值范围和缺失值的说明 43
3.1.2变量取值有效性检查和修正 44
3.1.3变量角色的说明 45
3.2变量值的重新计算 46
3.2.1 CLEM表达式 46
3.2.2变量值重新计算示例 49
3.3变量类别值的调整 50
3.4生成新变量 52
3.5变量值的离散化处理 55
3.5.1常用的分箱方法 55
3.5.2变量值的离散化处理示例 58
3.6生成样本集分割变量 61
3.6.1样本集分割的意义和常见方法 61
3.6.2生成样本集分割变量的示例 62
第4章 SPSS Modeler样本的管理 64
4.1样本的排序 64
4.2样本的条件筛选 65
4.3样本的随机抽样 65
4.4样本的浓缩处理 66
4.5样本的分类汇总 67
4.6样本的平衡处理 68
4.7样本的其他管理 69
4.7.1数据转置 69
4.7.2数据的重新组织 71
第5章 SPSS Modeler数据的基本分析 73
5.1数据质量的探索 73
5.1.1数据的基本描述与质量探索 74
5.1.2离群点和极端值的修正 76
5.1.3缺失值的替补 77
5.1.4数据质量管理的其他功能 78
5.2基本描述分析 79
5.2.1计算基本描述统计量 79
5.2.2绘制散点图 81
5.3变量分布的探索 83
5.4两分类变量相关性的研究 85
5.4.1两分类变量相关性的图形分析 85
5.4.2两分类变量相关性的数值分析 88
5.5两总体的均值比较 92
5.5.1两总体均值比较的图形分析 92
5.5.2独立样本的均值检验 93
5.5.3配对样本的均值检验 96
5.6变量重要性的分析 99
5.6.1变量重要性分析的一般方法 99
5.6.2变量重要性分析的应用示例 101
第6章 分类预测:SPSS Modeler的决策树 104
6.1决策树算法概述 104
6.1.1什么是决策树 104
6.1.2决策树的几何理解 105
6.1.3决策树的核心问题 106
6.2 SPSS Modeler的C5.0算法及应用 108
6.2.1信息熵和信息增益 108
6.2.2 C5.0的决策树生长算法 110
6.2.3 C5.0的剪枝算法 113
6.2.4 C5.0的推理规则集 115
6.2.5 C5.0的基本应用示例 118
6.2.6 C5.0的损失矩阵和Boosting技术 121
6.2.7 C5.0的模型评价 125
6.2.8 C5.0的其他话题:推理规则、交叉验证和未剪枝的决策树 127
6.3 SPSS Modeler的分类回归树及应用 128
6.3.1分类回归树的生长过程 129
6.3.2分类回归树的剪枝过程 131
6.3.3损失矩阵对分类树的影响 133
6.3.4分类回归树的基本应用示例 133
6.3.5分类回归树的交互建模 137
6.3.6分类回归树的模型评价 138
6.4 SPSS Modeler的CHAID算法及应用 145
6.4.1 CHAID分组变量的预处理和选择策略 145
6.4.2 Exhaustive CHAID算法 147
6.4.3 CHAID的剪枝 147
6.4.4 CHAID的应用示例 147
6.5 SPSS Modeler的QUEST算法及应用 149
6.5.1 QUEST算法确定最佳分组变量和分割点的方法 150
6.5.2 QUEST算法的应用示例 151
6.6决策树算法评估的图形比较 152
6.6.1不同模型的误差对比 152
6.6.2不同模型收益的对比 153
第7章 分类预测:SPSS Modeler的人工神经网络 156
7.1人工神经网络算法概述 156
7.1.1人工神经网络的概念和种类 156
7.1.2人工神经网络中的节点和意义 157
7.1.3人工神经网络建立的一般步骤 160
7.2 SPSS Modeler的B-P反向传播网络 161
7.2.1感知机模型 162
7.2.2 B-P反向传播网络的特点 164
7.2.3 B-P反向传播算法 166
7.2.4 B-P反向传播网络的其他问题 168
7.3 SPSS Modeler的B-P反向传播网络的应用 171
7.3.1基本操作说明 171
7.3.2计算结果说明 173
7.3.3提高模型预测精度 175
7.4 SPSS Modeler的径向基函数网络及应用 175
7.4.1径向基函数网络中的隐节点和输出节点 175
7.4.2径向基函数网络的学习过程 176
7.4.3径向基函数网络的应用示例 177
第8章 分类预测:SPSS Modeler的统计方法 179
8.1 SPSS Modeler的Logistic回归分析及应用 179
8.1.1二项Logistic回归方程 179
8.1.2二项Logistic回归方程系数的含义 181
8.1.3二项Logistic回归方程的检验 183
8.1.4二项Logistic回归分析的应用示例 186
8.1.5多项Logistic回归分析的应用示例 192
8.2 SPSS Modeler的判别分析及应用 193
8.2.1距离判别法 194
8.2.2 Fisher判别法 195
8.2.3贝叶斯判别法 198
8.2.4判别分析的应用示例 199
第9章 探索内部结构:SPSS Modeler的关联分析 207
9.1简单关联规则及其有效性 207
9.1.1简单关联规则的基本概念 208
9.1.2简单关联规则的有效性和实用性 209
9.2 SPSS Modeler的Apriori算法及应用 213
9.2.1产生频繁项集 213
9.2.2依据频繁项集产生简单关联规则 214
9.2.3 Apriori算法的应用示例 215
9.3 SPSS Modeler的GRI算法及应用 219
9.3.1 GRI算法基本思路 219
9.3.2 GRI算法的具体策略 220
9.3.3 GRI算法的应用示例 221
9.4 SPSS Modeler的序列关联及应用 223
9.4.1序列关联中的基本概念 223
9.4.2 Sequence算法 224
9.4.3序列关联的时间约束 227
9.4.4序列关联分析的应用示例 228
第10章 探索内部结构:SPSS Modeler的聚类分析 231
10.1聚类分析的一般问题 231
10.1.1聚类分析的提出 231
10.1.2聚类分析的算法 231
10.2 SPSS Modeler的K-Means聚类及应用 232
10.2.1 K-Means对“亲疏程度”的测度 232
10.2.2 K-Means聚类过程 233
10.2.3 K-Means聚类的应用示例 235
10.3 SPSS Modeler的两步聚类及应用 238
10.3.1两步聚类对“亲疏程度”的测度 239
10.3.2两步聚类过程 240
10.3.3聚类数目的确定 241
10.3.4两步聚类的应用示例 242
10.4 SPSS Modeler的Kohonen网络聚类及应用 244
10.4.1 Kohonen网络的聚类机理 244
10.4.2 Kohonen网络的聚类过程 246
10.4.3 Kohonen网络聚类的示例 248
10.5基于聚类分析的离群点探索及应用 252
10.5.1多维空间基于聚类的诊断方法 253
10.5.2多维空间基于聚类的诊断方法应用示例 255
参考文献 258