第1部分 数据挖掘应用基础 1
第1章 数据挖掘概述 2
1.1 数据挖掘的社会需求 2
1.2 数据挖掘的定义 3
1.2.1 数据挖掘的技术定义 3
1.2.2 数据挖掘的商业定义 4
1.3 数据挖掘系统分类 5
1.4 数据挖掘的应用领域 6
1.4.1 金融领域 7
1.4.2 数据挖掘在营销中的应用 7
1.4.3 电子政务领域 9
1.4.4 电信领域 9
1.4.5 工业生产领域 10
1.4.6 生物与医学 11
1.5 数据挖掘标准和规范 11
1.6 数据挖掘面临的挑战和局限性 12
1.7 数据挖掘的发展趋势 14
1.7.1 Web挖掘 14
1.7.2 空间数据挖掘 14
1.7.3 生物信息或基因的数据挖掘 14
1.8 小结 15
第2章 数据挖掘可挖掘的知识类型 16
2.1 概念与类描述 16
2.2 关联模式 18
2.3 分类 19
2.4 聚类分析 20
2.5 预测 21
2.6 时间序列 22
2.7 偏差检测 23
2.8 小结 23
第3章 数据挖掘的体系结构与模型 24
3.1 数据挖掘的体系结构 24
3.2 数据挖掘的过程模型 25
3.2.1 Fayyad模型 25
3.2.2 CRISP-DM模型 27
3.3 小结 33
第4章 数据选择 34
4.1 数据挖掘的对象 34
4.1.1 数据库 34
4.1.2 数据仓库 35
4.1.3 文本 36
4.1.4 Web信息 36
4.1.5 空间数据 37
4.2 选择建模数据 37
4.3 构造建模数据集 38
4.4 小结 39
第5章 数据预处理 40
5.1 数据预处理基本功能 40
5.1.1 数据清理 40
5.1.2 数据集成 42
5.1.3 数据变换 42
5.1.4 数据归约 42
5.2 数据预处理的方法 44
5.2.1 基于粗糙集理论的简约方法 44
5.2.2 复共线性数据的预处理方法 45
5.2.3 基于Hash函数取样的抽样技术数据预处理 48
5.2.4 基于遗传算法的预处理方法 50
5.2.5 基于神经网络数据预处理方法 51
5.2.6 Web挖掘数据预处理方法 53
5.3 小结 54
第2部分 数据挖掘经典算法 55
第6章 回归分析 56
6.1 回归分析的基本原理 56
6.2 一元线性回归分析 58
6.2.1 一元线性回归模型 58
6.2.2 模型参数估计和估计平均误差 62
6.2.3 回归模型的校验 64
6.3 多元线性回归分析 68
6.3.1 多元线性回归模型 69
6.3.2 参数估计 69
6.3.3 多元回归方差分析和显著性检验 71
6.3.4 多元回归模型的残差分析 74
6.4 非线性回归分析 77
6.4.1 非线性模型 77
6.4.2 非线性模型的线性化 79
6.5 应用实例分析 82
6.5.1 算法描述 82
6.5.2 实例过程 83
6.5.3 结果分析 84
6.6 小结 85
第7章 贝叶斯分析 86
7.1 贝叶斯定理 86
7.1.1 贝叶斯理论基础 86
7.1.2 贝叶斯定理 87
7.2 贝叶斯分类 88
7.2.1 贝叶斯分类步骤 88
7.2.2 先验概率和后验概率 88
7.2.3 贝叶斯分类 88
7.2.4 贝叶斯分类器 89
7.3 朴素贝叶斯分类 90
7.3.1 贝叶斯假设和朴素贝叶斯 90
7.3.2 朴素贝叶斯计算 90
7.3.3 朴素贝叶斯分类举例 91
7.3.4 朴素贝叶斯分类的特点 93
7.3.5 朴素贝叶斯网络的扩展 94
7.4 EM算法 94
7.5 贝叶斯信念网络 95
7.5.1 贝叶斯网络结构 95
7.5.2 贝叶斯网络应用 96
7.5.3 贝叶斯网络特点 98
7.6 应用实例分析 98
7.6.1 样本数据的选取依据和方法 98
7.6.2 使用贝叶斯构造网络算法训练数据 98
7.6.3 结果与评价 100
7.7 小结 100
第8章 聚类分析 101
8.1 聚类分析原理 101
8.1.1 聚类分析基础 101
8.1.2 聚类分析中的数据类型 103
8.1.3 区间标度变量 104
8.1.4 二元变量 105
8.1.5 分类型、序数型变量 106
8.1.6 向量对象 107
8.2 聚类分析常用算法分类 108
8.2.1 划分方法 109
8.2.2 层次方法 109
8.2.3 基于密度的方法 109
8.2.4 基于网格的方法 109
8.2.5 基于模型的方法 110
8.2.6 高维数据的聚类法 110
8.2.7 模糊聚类FCM 110
8.3 划分聚类方法 110
8.3.1 典型的划分方法:k-means,k-medoids 111
8.3.2 算法实现 112
8.4 层次聚类方法 121
8.4.1 凝聚的和分裂的层次聚类 121
8.4.2 BIRCH:利用层次方法的平衡迭代归约和聚类 123
8.4.3 ROCK:分类属性的层次聚类算法 124
8.4.4 CURE:使用代表点的聚类方法 125
8.4.5 ChameIeon:利用动态建模的层次聚类 126
8.5 基于密度的聚类方法 127
8.5.1 DBSCAN:基于高密度连通区域的聚类 127
8.5.2 OPTICS:通过点排序识别聚类结构 129
8.5.3 DENCLUE:基于密度分布函数的聚类 129
8.6 基于网格的聚类方法 131
8.6.1 STING:统计信息网格聚类 131
8.6.2 WaveCluster:利用小波变换聚类 132
8.7 基于模型的聚类方法 132
8.7.1 统计学方法COBWEB 132
8.7.2 神经网络方法SOMs 133
8.8 高维数据的聚类方法 135
8.8.1 CLIQUE:维增长子空间聚类方法 135
8.8.2 PROCLUS:雏归约子空间聚类方法 136
8.9 模糊聚类FCM 136
8.9.1 模糊集基本知识 136
8.9.2 模糊C均值聚类 137
8.10 应用实例分析 138
8.11 小结 146
第9章 决策树算法 147
9.1 决策树算法原理 147
9.2 常用决策树算法 151
9.2.1 ID3算法 151
9.2.2 C4.5算法 153
9.2.3 CART算法 157
9.2.4 PUBIC算法 159
9.2.5 SLIQ算法 159
9.2.6 SPRINT算法 160
9.3 决策树剪枝 161
9.3.1 预剪枝 162
9.3.2 后剪枝 162
9.4 由决策树提取分类规则 169
9.5 应用实例分析 170
9.5.1 类别属性信息熵的计算 170
9.5.2 非类别属性信息熵的计算 170
9.5.3 递归地创建决策树的树枝和叶子 170
9.6 小结 174
第10章 关联规则算法 176
10.1 关联规则基础 176
10.1.1 关联规则定义 176
10.1.2 关联规则分类 177
10.2 关联规则算法原理 178
10.2.1 关联规则挖掘算法的步骤 178
10.2.2 基本关联规则算法 178
10.2.3 复杂关联规则算法 181
10.3 分层搜索经典算法——Apriori算法 181
10.3.1 频繁项目集的产生 182
10.3.2 产生关联规则 185
10.3.3 Apriori算法性能分析 186
10.3.4 Apriori算法改进 186
10.4 并行挖掘算法 187
10.4.1 并行算法思想 187
10.4.2 基于Apriori的并行算法 188
10.5 增量更新挖掘算法 190
10.5.1 增量挖掘 190
10.5.2 FUP算法 191
10.6 多层关联规则挖掘 194
10.6.1 概念层次 194
10.6.2 多层关联规则挖掘方法 195
10.6.3 多层关联规则的冗余 197
10.7 约束性关联规则挖掘 197
10.7.1 数据挖掘中约束的作用 198
10.7.2 约束的类型 199
10.7.3 过滤事务数据库 200
10.7.4 算法Separate 202
10.7.5 扩展的约束条件 203
10.7.6 时态约束关联规则挖掘 204
10.8 数量关联规则挖掘 205
10.8.1 数量关联规则挖掘问题 205
10.8.2 数量关联规则的分类 205
10.8.3 数量关联规则挖掘的步骤 206
10.8.4 数值属性离散化及算法 207
10.9 多维关联规则挖掘 208
10.9.1 多维关联规则挖掘原理 208
10.9.2 MAQA算法 209
10.9.3 确定多属性划分的聚类算法CP 210
10.9.4 合并数量属性的相邻值 212
10.10 负关联规则挖掘算法 213
10.10.1 直接Apriori算法 213
10.10.2 “近似”负关联规则算法 214
10.11 加权关联规则挖掘算法 215
10.11.1 加权关联规则模型 215
10.11.2 加权关联规则发现算法——MINWAL(O)算法 215
10.12 应用实例分析 218
10.12.1 数据准备 218
10.12.2 挖掘关联规则 219
10.12.3 挖掘结果分析 220
10.13 小结 220
第11章 粗糙集理论 221
11.1 粗糙集基本概念 221
11.1.1 知识和知识库 221
11.1.2 不可分辨关系 222
11.1.3 上、下近似集 222
11.2 知识表达 223
11.2.1 知识表达系统 223
11.2.2 决策表 224
11.2.3 属性约简、核集的求取 225
11.2.4 属性值约简 225
11.2.5 决策规则 226
11.2.6 基于可辨识矩阵属性约简算法 226
11.2.7 信息熵的属性约简 227
11.3 粗糙集在数据预处理中的应用 228
11.3.1 属性约简的两种方法 228
11.3.2 粗糙集在神经网络中的应用——粗神经网络算法 231
11.4 小结 233
第12章 神经网络 234
12.1 神经网络基本原理 234
12.1.1 人工神经元模型 234
12.1.2 人工神经网络模型 235
12.1.3 神经网络的参数 236
12.1.4 神经网络的学习方法 237
12.2 BP神经网络 239
12.2.1 BP神经网络模型 239
12.2.2 BP神经网络的Java实现 240
12.2.3 BP神经网络的改进 247
12.3 径向基函数神经网络 251
12.3.1 RBF神经网络结构 251
12.3.2 RBF训练 252
12.3.3 RBF神经网络算法分析 255
12.3.4 RBF网络的应用 257
12.4 Hopfield神经网络 258
12.4.1 Hopfield神经网络概述 258
12.4.2 离散Hopfield神经网络 259
12.4.3 连续Hopfield神经网络 259
12.5 自组织神经网络 260
12.5.1 SOFM网络模型 260
12.5.2 SOFM网络聚类的基本算法 261
12.5.3 SOFM算法分析 261
12.6 神经网络的应用 262
12.6.1 BP神经网络在模式识别中的应用 262
12.6.2 基于Hopfield神经网络在优化问题中的应用 264
12.7 神经网络在数据挖掘中的应用 265
12.7.1 基于神经网络方法的数据挖掘过程 266
12.7.2 评价数据挖掘模型实现算法的指标 266
12.8 小结 267
第13章 遗传算法 268
13.1 遗传算法概述 268
13.1.1 遗传算法的基本理论 268
13.1.2 遗传算法的基本操作 271
13.1.3 遗传算法的编码方式 272
13.1.4 遗传算法的类型 273
13.2 基本遗传算法 273
13.2.1 基本遗传算法的流程 273
13.2.2 基本遗传算法的Java实现 277
13.3 改进遗传算法 287
13.3.1 分层遗传算法 287
13.3.2 自适应遗传算法 289
13.3.3 小生境遗传算法 290
13.3.4 并行遗传算法 292
13.3.5 混合遗传算法 294
13.4 基于遗传算法的数据挖掘 297
13.4.1 遗传算法的一般结构 297
13.4.2 遗传算法的组成要素 298
13.4.3 基于遗传算法的关联规则挖掘 299
13.4.4 基于遗传算法的聚类算法 300
13.4.5 基于遗传算法的分类算法 303
13.4.6 基于模糊遗传算法的建模 305
13.5 基因表达式编程 307
13.5.1 基因表达式编程国内外研究现状 307
13.5.2 基因表达式编程算法描述 307
13.5.3 基因表达式编程的主要遗传操作 308
13.6 小结 310
第14章 支持向量机 311
14.1 支持向量机基础 311
14.1.1 机器学习的基本问题 311
14.1.2 经验风险最小化问题 312
14.1.3 VC维与学习一致性理论 313
14.1.4 结构化风险最小化 315
14.2 支持向量机的基本原理 317
14.2.1 线性支持向量机 317
14.2.2 广义线性支持向量机 320
14.2.3 非线性支持向量机 322
14.3 支持向量机的实现技术 326
14.3.1 chunking块算法 326
14.3.2 Decomposing算法 328
14.3.3 SMO算法 330
14.3.4 SMO算法源代码 331
14.3.5 SMO算法的特点和优势 341
14.4 支持向量回归机 341
14.4.1 不敏感损失函数 342
14.4.2 支持向量回归机(SVR)模型 343
14.5 支持向量机的改进算法 345
14.5.1 V-SVM算法 345
14.5.2 One-class SVM算法 346
14.5.3 RSVM算法 347
14.5.4 LS-SVM算法 347
14.5.5 WSVM算法 348
14.5.6 模糊支持向量机算法(FSVM) 348
14.5.7 多类值支持向量机算法 349
14.6 支持向量机在数据挖掘中的应用 352
14.6.1 支持向量机在医疗诊断中的应用 353
14.6.2 支持向量机时间序列预测模型 354
14.7 小结 355
第15章 复杂对象数据挖掘 356
15.1 空间数据库挖掘 356
15.1.1 空间数据概述 356
15.1.2 空间数据挖掘中的基础计算模型 358
15.1.3 空间数据挖掘基础 363
15.1.4 几种空间数据挖掘算法 365
15.2 多媒体数据挖掘 368
15.2.1 多媒体数据挖掘概述 369
15.2.2 多媒体数据挖掘方法 371
15.3 文本挖掘 373
15.3.1 文本挖掘概述 374
15.3.2 文本的预处理 375
15.3.3 文本挖掘方法 377
15.4 挖掘互联网 380
15.4.1 挖掘Web页面布局结构 381
15.4.2 挖掘Web链接结构识别权威Web页面 382
15.4.3 挖掘Web上的多媒体数据 383
15.4.4 Web文档的自动分类 384
15.4.5 Web使用挖掘 384
15.5 挖掘数据流 386
15.5.1 流数据处理方法和流数据系统 386
15.5.2 流OLAP和流数据立方体 388
15.5.3 数据流中的频繁模式挖掘 389
15.5.4 动态数据流的分类 390
15.5.5 聚类演变数据流 391
15.6 时间序列数据挖掘 393
15.6.1 趋势分析 393
15.6.2 时间序列分析中的相似性搜索 395
15.7 挖掘事务数据库中的序列模式 396
15.7.1 序列模式挖掘 396
15.7.2 挖掘序列模式的可伸缩方法 398
15.7.3 基于约束的序列模式挖掘 399
15.7.4 时间相关序列数据的周期性分析 400
15.8 挖掘生物学数据中的序列模式 401
15.8.1 生物学序列比对 402
15.8.2 生物学序列分析 403
15.9 小结 409
第3部分 数据挖掘建模与模型 411
第16章 数据挖掘建模 412
16.1 数据挖掘建模概述 412
16.1.1 原型与模型 412
16.1.2 模式与模型 413
16.1.3 知识层次理论 413
16.1.4 模型与数据 416
16.1.5 知识结构与框架 416
16.1.6 认识决策 417
16.2 数据挖掘建模基础 419
16.2.1 数据挖掘建模 420
16.2.2 建模与挖掘的结合 423
16.2.3 模型分类 427
16.2.4 建模行为 430
16.3 数据挖掘建模原理 432
16.3.1 建模要求 432
16.3.2 建模原则 432
16.3.3 简化模型 433
16.3.4 建模流程 434
16.3.5 建模素质 439
16.4 小结 440
第17章 数据挖掘模型评价 442
17.1 基于损失函数的标准 442
17.1.1 混淆矩阵 442
17.1.2 准确率及误差的度量 443
17.1.3 两个评价模型成本的可视化工具 445
17.1.4 评估分类器的准确率 447
17.2 基于统计检验的准则 449
17.2.1 统计模型之间的距离 449
17.2.2 统计模型的离差 451
17.3 基于计分函数的标准 453
17.4 贝叶斯标准 454
17.5 计算标准 455
17.5.1 交叉验证标准 455
17.5.2 自展标准 456
17.5.3 遗传算法 460
17.6 小结 461
第4部分 SPSS Clementine数据挖掘实务 463
第18章 SPSS Clementine基础 464
18.1 认识SPSS Clementine 464
18.1.1 SPSS Clementine运行方式 465
18.1.2 Clementine的组成构件 466
18.1.3 SPSS Clementine选项设置 470
18.2 SPSS Clementine应用领域 474
18.3 SPSS Clementine数据挖掘入门 475
18.3.1 SPSS Clementine中鼠标以及快捷键的使用 475
18.3.2 SPSS Clementine中构建数据流 476
18.3.3 数据流中节点的设置 476
18.3.4 对数据流的设置和操作 481
18.4 小结 484
第19章 SPSS Clementine数据管理 485
19.1 各种格式数据的导入 485
19.1.1 从开放数据库中导入数据 486
19.1.2 从无格式文本文件中读取数据 489
19.1.3 从固定字段的文本文件中读取数据 490
19.1.4 导入SPSS文件 491
19.1.5 元数据和个例数据的导入 491
19.1.6 SAS格式数据的设置 493
19.1.7 导入Excel格式的数据 494
19.1.8 用户手动创建数据 494
19.2 对数据集记录的修改 495
19.2.1 选择节点 496
19.2.2 对数据的抽样 496
19.2.3 修正数据集中的不均匀性 497
19.2.4 统计汇总 498
19.2.5 对节点数据的排序 499
19.2.6 合并节点 499
19.2.7 追加节点数据 501
19.2.8 区分节点来清除重复记录 502
19.2.9 对数据的统计输出实例 502
19.3 对字段数据的进一步处理 504
19.3.1 类型节点 504
19.3.2 对节点数据的过滤 509
19.3.3 导出节点数据 510
19.3.4 对节点数据的填充 514
19.3.5 自动建立新的字段级 515
19.3.6 为节点数据设置标志 516
19.3.7 时间序列数据的处理 517
19.3.8 分析医生开处方药的依据实例 517
19.4 小结 519
第20章 数据的图形化展示 520
20.1 图表类型 520
20.1.1 层叠图 520
20.1.2 三维图像 521
20.1.3 动画效果 522
20.2 图表的创建 522
20.3 散点图的显示 524
20.3.1 定义一个区域 526
20.3.2 删除已创建的区域 527
20.3.3 编辑图像区域 527
20.4 条形图的绘制 527
20.5 绘制直方图 529
20.5.1 定义变量值的区域 530
20.5.2 在一个特定段中选择或标记记录 531
20.5.3 为所有区域中的记录生成集合 531
20.5.4 编辑图型区域 531
20.6 收集图显示 531
20.7 多重散点图 533
20.8 网络图显示 535
20.8.1 调整点 537
20.8.2 调整网络图阈值 537
20.8.3 创建一个网络图汇总 538
20.9 评估节点图 538
20.9.1 收益图表 539
20.9.2 响应图表 539
20.9.3 提升图表 540
20.9.4 利润图表 540
20.9.5 投资回报率图表 540
20.9.6 读取模型评估的结果 541
20.10 时间散点图的显示 542
20.11 状态检测实例 543
20.12 小结 546
第21章 SPSS Clementine数据挖掘建模 547
21.1 Clementine数据模型工具概览 547
21.2 建模前的通用设置 547
21.2.1 在数据流中使用生成模型 549
21.2.2 使用生成模型浏览器 549
21.3 神经网络建模 550
21.3.1 神经网络的专家项 551
21.3.2 神经网络模型的学习速率 554
21.3.3 生成神经网络模型 554
21.3.4 生成神经网络模型的汇总 555
21.4 C5.0算法生成决策树 556
21.5 C&RT基于树的分类预测 558
21.5.1 分类回归树专家设置 559
21.5.2 分类回归树的构造控制 560
21.5.3 分类回归树先验概率的指定 560
21.5.4 生成决策树 561
21.6 Kohonen网络模型 565
21.6.1 Kohonen模型的专家项设置 566
21.6.2 生成Kohonen网络 567
21.7 K-Means聚类分析 568
21.7.1 K-Means模型的专家项设置 569
21.7.2 生成K-Means模型 569
21.8 TwoStep聚类分析 570
21.9 异常节点模型 572
21.10 Apriori关联规则 573
21.11 GRI关联规则 575
21.11.1 未精炼规则模型 576
21.11.2 未精炼规则汇总 576
21.11.3 生成规则集 576
21.12 生成规则集模型 577
21.13 序列模型 578
21.13.1 序列规则模型 582
21.13.2 序列规则汇总 582
21.14 主成分/因子分析 582
21.14.1 主成分/因子分析节点旋转选项 585
21.14.2 主成分/因子分析模型 585
21.15 特征选择算法模型 587
21.16 回归模型 588
21.16.1 回归模型的步进选择 590
21.16.2 回归模型的输出选项 591
21.16.3 生成回归节点 591
21.17 Logistic回归模型 593
21.17.1 Logistis回归模型的收敛准则 594
21.17.2 Logistic回归模型的输出 595
21.17.3 Logistic回归方程模型 596
21.18 用神经网络节点和C5.0节点训练和测试 597
21.19 小结 601
第22章 数据挖掘结果的输出 602
22.1 结果输出的概述 602
22.2 表节点的输出 603
22.2.1 表节点格式设置 603
22.2.2 通过表浏览器来操作 604
22.3 通过矩阵方式建立关系表 605
22.4 评估预测值的输出 607
22.5 数据审核报告 610
22.6 统计量输出 611
22.6.1 统计量输出浏览器 612
22.6.2 从统计量中生成过滤节点 613
22.7 均值的输出 614
22.8 数据的质量报告 615
22.8.1 从质量中生成过滤节点 616
22.8.2 从质量中生成选择节点 617
22.9 格式化的报告输出 617
22.10 全局量的输出 619
22.11 SPSS导出结果 620
22.12 评估模型产生精确预测值的能力 621
22.12.1 分析节点的设置 621
22.12.2 分析输出浏览器 622
22.13 小结 624
第23章 数据挖掘项目实施 625
23.1 数据挖掘项目实施步骤 625
23.1.1 一般实施步骤 625
23.1.2 企业解决方案 626
23.1.3 标准过程模型 628
23.2 数据挖掘项目周期 629
23.2.1 数据收集 629
23.2.2 数据清理与转换 629
23.2.3 模型构建 630
23.2.4 模型评估 630
23.2.5 报告 630
23.2.6 预测 630
23.2.7 应用集成 630
23.2.8 模型管理 631
23.3 建立项目和报告 631
23.3.1 项目概述 631
23.3.2 建立项目 633
23.3.3 建立报告 637
23.4 处理缺失值 640
23.4.1 指定缺失值 641
23.4.2 处理缺失值的技巧 642
23.4.3 用CLEM函数处理缺失值 644
23.5 导入和导出PMML模型 645
23.5.1 支持PMML的模型类型 645
23.5.2 导入PMML模型 647
23.5.3 导出PMML模型 648
23.6 小结 649
第24章 SPSS Clementine典型案例分析 650
24.1 市场购物篮分析 650
24.1.1 定义数据源 650
24.1.2 理解数据 651
24.1.3 准备数据 653
24.1.4 建模 653
24.2 利用决策树模型挖掘商业信息 656
24.3 利用神经网络对数据进行欺诈探测 660
24.3.1 定义数据源 661
24.3.2 理解数据 661
24.3.3 准备数据 662
24.3.4 建模 664
24.4 小结 667
参考文献 668