第1部分 数据挖掘篇 3
第1章 数据挖掘概述 3
1.1 什么是数据挖掘 3
1.1.1 数据挖掘的定义 4
1.1.2 数据挖掘的发展阶段 5
1.1.3 数据挖掘的技术特征 6
1.2 与传统技术的比较 8
1.2.1 数据挖掘和统计分析 8
1.2.2 数据挖掘和数据仓库 8
1.2.3 数据挖掘和OLAP 9
1.2.4 数据挖掘和Web挖掘 10
1.3 常用的数据挖掘软件 11
1.3.1 SAS EM 12
1.3.2 SPSS Modeler 13
1.3.3 Intelligent Miner 13
1.4 应用实例:目标客户分析 15
1.4.1 研究方法 15
1.4.2 数据分析 15
1.4.3 研究结论 26
第2章 SPSS Modeler软件概述 27
2.1 软件简介 27
2.1.1 软件发展 28
2.1.2 软件界面 30
2.1.3 软件特点 35
2.1.4 软件功能 37
2.1.5 软件算法 39
2.1.6 高级功能 41
2.1.7 软件安装 42
2.2 行业应用 50
2.2.1 通信行业 50
2.2.2 政府行业 52
2.2.3 金融行业 53
2.2.4 制造行业 54
2.2.5 医药行业 56
2.2.6 教育科研 56
2.2.7 市场调研 57
2.2.8 连锁零售 57
2.3 数据挖掘流程 58
2.3.1 业务理解 58
2.3.2 数据理解 59
2.3.3 数据准备 60
2.3.4 建立模型 61
2.3.5 评估模型 61
2.3.6 应用模型 62
2.4 应用实例:药物效果研究 62
2.4.1 研究方法 63
2.4.2 数据分析 63
2.4.3 研究结论 69
第3章 SPSS Modeler基础操作 70
3.1 数据输入 70
3.1.1 数据库 71
3.1.2 可变文件 73
3.1.3 固定文件 75
3.1.4 SAS文件 76
3.1.5 Statistics文件 77
3.1.6 Excel文件 77
3.2 数据流操作 78
3.2.1 生成数据流 78
3.2.2 添加和删除节点 79
3.2.3 连接数据流 79
3.2.4 修改连接节点 80
3.2.5 执行数据流 81
3.3 图形制作 82
3.3.1 散点图 82
3.3.2 直方图 84
3.3.3 网络图 85
3.3.4 评估图 87
3.4 应用实例:产品销售预测 88
3.4.1 研究方法 88
3.4.2 数据分析 88
3.4.3 研究结论 99
第4章 回归分析 100
4.1 回归分析模型概述 100
4.1.1 模型定义 101
4.1.2 模型应用 102
4.1.3 建模步骤 103
4.1.4 注意事项 103
4.2 应用实例:客户流失因素分析 104
4.2.1 研究方法 104
4.2.2 数据分析 105
4.2.3 研究结论 113
第5章 时间序列 114
5.1 时间序列模型概述 114
5.1.1 模型定义 115
5.1.2 模型应用 115
5.1.3 建模步骤 116
5.2 应用实例:带宽利用率预测 116
5.2.1 研究方法 117
5.2.2 数据分析 117
5.2.3 研究结论 128
第6章 因子分析 129
6.1 因子分析模型概述 129
6.1.1 模型定义 130
6.1.2 模型应用 130
6.1.3 建模步骤 131
6.1.4 注意事项 131
6.2 应用实例:儿童玩具影响因子分析 132
6.2.1 研究方法 132
6.2.2 数据分析 133
6.2.3 研究结论 139
第7章 决策树 140
7.1 决策树模型概述 140
7.1.1 模型定义 141
7.1.2 模型应用 142
7.1.3 建模步骤 143
7.1.4 注意事项 143
7.2 应用实例:电信客户流失分析 144
7.2.1 研究方法 144
7.2.2 数据分析 145
7.2.3 研究结论 153
第8章 判别分析 154
8.1 判别分析模型概述 154
8.1.1 模型定义 155
8.1.2 模型应用 156
8.1.3 建模步骤 156
8.1.4 注意事项 156
8.2 应用实例:电信客户群判别分析 157
8.2.1 研究方法 157
8.2.2 数据分析 158
8.2.3 研究结论 166
第9章 聚类分析 167
9.1 聚类分析模型概述 167
9.1.1 模型定义 168
9.1.2 模型应用 170
9.1.3 建模步骤 173
9.1.4 注意事项 174
9.2 应用实例:药物效果聚类分析 174
9.2.1 研究方法 174
9.2.2 数据分析 175
9.2.3 研究结论 181
第10章 关联分析 182
10.1 关联分析模型概述 182
10.1.1 模型定义 183
10.1.2 模型应用 184
10.1.3 建模步骤 184
10.1.4 注意事项 185
10.2 应用实例:商品关联性分析 185
10.2.1 研究方法 185
10.2.2 数据分析 186
10.2.3 研究结论 193
第11章 人工神经网络 194
11.1 人工神经网络模型概述 194
11.1.1 模型定义 195
11.1.2 模型应用 197
11.1.3 建模步骤 198
11.1.4 注意事项 198
11.2 应用实例:客户流失预测分析 199
11.2.1 研究方法 199
11.2.2 数据分析 200
11.2.3 研究结论 208
第12章 贝叶斯网络 209
12.1 贝叶斯网络模型概述 209
12.1.1 模型定义 210
12.1.2 模型应用 211
12.1.3 建模步骤 211
12.1.4 注意事项 212
12.2 应用实例:贷款风险预测 212
12.2.1 研究方法 212
12.2.2 数据分析 212
12.2.3 研究结论 219
第13章 社交网络分析 220
13.1 社交网络分析模型概述 220
13.1.1 模型定义 221
13.1.2 模型应用 222
13.1.3 建模步骤 223
13.1.4 注意事项 224
13.2 应用实例:客户流失预警分析 224
13.2.1 研究方法 225
13.2.2 数据分析 225
13.2.3 研究结论 228
第2部分 文本挖掘篇 230
第14章 文本挖掘概述 230
14.1 什么是文本挖掘 231
14.2 文本挖掘的研究现状 232
14.3 文本挖掘软件简介 233
14.3.1 Intelligent Miner 233
14.3.2 北大方正智思 233
第15章 文本挖掘算法 235
15.1 特征选择文本分类算法 236
15.1.1 文本特征表示 236
15.1.2 文档预处理 236
15.1.3 文档特征选择 237
15.2 支持向量机文本分类算法 239
15.2.1 文档特征的表示 239
15.2.2 文本特征的提取 240
15.2.3 文档的相似度 240
15.2.4 支持向量机算法 241
15.3 朴素贝叶斯文本分类算法 242
15.3.1 贝叶斯公式 242
15.3.2 贝叶斯定理的应用 242
15.3.3 朴素贝叶斯分类器 243
15.3.4 朴素贝叶斯文本分类算法 244
15.4 KNN文本分类算法 245
15.4.1 KNN文本分类算法概述 245
15.4.2 基于统计的KNN文本分类算法 246
15.4.3 基于LSA降维的KNN文本分类算法 248
第16章 SPSS Modeler文本挖掘概述 250
16.1 Modeler软件中的文本挖掘理论 250
16.1.1 功能简介 251
16.1.2 文本挖掘节点 252
16.2 Modeler软件中的文本挖掘安装 253
第17章 SPSS Modeler文本挖掘节点 258
17.1 File List节点 259
17.1.1 节点简介 259
17.1.2 节点实例 260
17.2 Web Feed节点 261
17.2.1 节点简介 261
17.2.2 节点实例 263
17.3 Text Mining节点 265
17.3.1 节点简介 265
17.3.2 节点实例 269
17.4 Text Link Analysis节点 271
17.4.1 节点简介 271
17.4.2 节点实例 272
17.5 Translate节点 274
17.5.1 节点简介 274
17.5.2 节点实例 275
17.6 File Viewer节点 277
17.6.1 节点简介 277
17.6.2 节点实例 278
第18章 SPSS Modeler文本挖掘实例 280
18.1 实例:音乐调查数据的概念模型分析 280
18.2 实例:音乐调查数据的文本类别分析 284
附录A 配置SQLServer ODBC数据源 289
参考文献 294