第1章 导论 1
数据挖掘概述 1
数据挖掘的背景 1
数据挖掘的定义 2
数据挖掘的应用 4
数据挖掘的一般过程 6
数据挖掘中的数据集 6
数据挖掘的任务 8
数据挖掘过程 10
数据挖掘的一般方法 12
分类预测型方法 12
描述型方法 14
文本/Web挖掘方法 16
第2章 分类方法 18
决策树 18
决策树基本概念 18
决策树构造过程 20
决策树的扩展 23
前馈神经网络 24
基本概念 24
BP训练过程 25
RBF网络 28
基于规则的方法 30
AQ算法 31
C45 rules 32
RIPPER 33
支持向量机 34
核函数 34
线性可分模式下的最优超平面 35
线性不可分模式下的最优超平面 36
支持向量机 36
贝叶斯分类 38
贝叶斯理论和极大后验假设 39
贝叶斯网络和贝叶斯分类器 39
几种常见的贝叶斯分类器模型 40
贝叶斯分类器应用举例 44
粗糙集方法 47
粗糙集概念 47
粗糙集基本算法 54
粗糙集方法的扩展 61
其他分类方法 64
回归分析 64
k-最近邻分类方法 67
组合学习方法 68
第3章 聚类方法 71
聚类方法概述 71
聚类分析中的常见数据类型 72
对聚类算法的一些典型要求 74
主要的聚类方法 75
划分聚类 76
k-均值算法 76
二分k-均值聚类方法 78
k-中心点算法 78
层次聚类 79
凝聚的和分裂的层次聚类 79
BIRCH算法 81
CURE算法 83
ROCK算法 84
Chameleon 85
基于密度的聚类 86
DBSCAN算法 86
OPTICS算法 88
Kohonen聚类 90
自组织神经网络 90
Kohonen自组织映射 90
孤立点分析 92
基于统计的孤立点检测 92
基于距离的孤立点检测 93
基于偏离的孤立点检测方法 94
概念格 95
基本概念 95
概念格的建造 97
规则提取 102
第4章 关联分析 103
基本概念与挖掘过程 103
基本概念 103
关联规则挖掘过程 105
频繁项集挖掘算法 106
Apriori算法 106
Apriori算法的改进 109
FP- Growth算法 110
关联规则生成算法 114
频繁闭项集挖掘 115
关联规则的扩展 115
多层次关联规则 115
多维关联规则 116
定量关联规则 116
加权关联规则 117
序列模式分析 117
第5章 文本与Web挖掘 120
文本挖掘 120
文本预处理 120
文本检索 127
文本分类 135
文本聚类 139
文本摘要 140
Web挖掘 144
概述 144
Web内容挖掘 146
Web结构挖掘 149
Web使用挖掘 152
第6章 业务理解 160
需求分析 160
需求分析的内容 160
需求分析的方法 161
需求分析的结果 161
需求分析的注意事项 162
实例:客户细分项目的需求分析 162
客户细分项目的内容 162
分析方法 164
分析结果 164
第7章 数据预处理 165
数据理解 165
数据准备 166
数据整理与合并 166
数据抽样 167
训练集和测试集的划分方法 170
类标签的确定 172
数据描述 173
单变量描述方法 174
多变量描述方法 178
数据清理 183
缺值处理 183
探测异常点与噪声清除 185
变量变换与合成 188
连续变量归一化 188
离散变量的数值化 190
连续变量离散化 191
变量变换 195
变量合成 197
变量选择 201
概述 201
包装方法 202
过滤方法 203
主成分及因子分析 205
一些算法对预处理的要求 207
实例:客户流失项目的数据预处理 207
数据理解和数据准备 208
数据描述和清理 210
数据变换与选择 210
第8章 建模 213
算法选择 213
模型参数调整 214
模型评估和性能比较 215
分类模型的评估方法 215
聚类模型的评估方法 217
模型导出 218
实例 客户流失项目的建模 223
算法选择 223
参数调整 223
性能评估 223
模型导出 224
第9章 模型部署与维护 225
模型部署 225
模型维护 225
客户流失项目的模型部署与维护 226
附录A 主要数据挖掘软件简介 227
SAS Enterprise Miner 227
概述 227
数据挖掘过程及模块 228
SPSS Clementine 231
概述 231
数据挖掘过程及模块 231
IBM Intelligent Miner 235
概述 235
数据挖掘过程及模块 236
其他常见数据挖掘工具 238
参考文献 240