目录 1
第1章 概论 1
1.1 数据挖掘的定义和范畴 1
1.2 数据及其度量 2
1.3 数据挖掘的过程 6
1.4 数据挖掘的任务和建模 8
1.5 数据挖掘的算法 12
1.6 聚类分析 16
1.7 分类 23
1.8 主模式提取和孤立点挖掘 26
1.9 数据挖掘的应用 27
1.10 数据挖掘的软件及开发商 32
1.11 展望 39
第1篇 数据挖掘算法 45
第2章 决策树算法 45
2.1 决策树基本算法 45
2.2 ID3算法 52
2.3 C4.5算法 55
2.4 CART算法 57
2.5 SLIQ算法 63
2.6 SPRINT算法 70
第3章 神经网络算法 76
3.1 概述 76
3.2 人工神经元和单层神经网络 80
3.3 多层感知器和反向传播算法 82
3.4 多层神经网络算法分析 86
3.5 改进反向传播的一些实用技术 97
3.6 径向基函数网络 99
3.7 竞争学习和侧抑制 101
3.8 自组织特征图 103
3.9 反馈网络 106
3.10 随机算法和Boltzmann网络 107
3.11 神经网络在金融市场中的应用 109
第4章 基因算法 110
4.1 基因算法的基本原理 110
4.2 基因算法分析 116
4.3 基因算法应用举例 121
4.4 小结 128
第5章 基本统计分析方法 129
5.1 正态分布参数的假设检验和区间估计 129
5.2 两组数据的比较 133
5.3 二维数据检验 141
5.4 回归分析 142
5.5 方差分析 150
5.6 互联网股市信息强度的统计分类及其在股价波动上的预测 152
第6章 贝叶斯网络方法 164
6.1 主观概率 164
6.2 贝叶斯定理、先验和后验 165
6.3 beta分布和Dirichlet分布 166
6.4 贝叶斯网络 167
6.5 贝叶斯网络学习 169
6.6 不完全数据情形下的学习 170
6.7 贝叶斯网络有监督学习 171
6.8 贝叶斯网络无监督学习 174
7.1 概述 176
第7章 支持向量机 176
7.2 线性可分问题的SVM方法 177
7.3 线性不可分问题的SVM方法 179
7.4 核函数 180
7.5 libSVM仿真平台 181
7.6 支持向量机方法在识别伪造信用卡中的应用 182
第8章 其他数据挖掘方法 184
8.1 主成分分析 184
8.2 近邻法 187
8.3 期望值最大化方法 189
8.4 隐Markov模型 190
8.5 K-均值聚类 193
8.6 K-中心点算法 193
8.7 关联规则挖掘 194
第2篇 数据挖掘相关技术 205
第9章 数据仓库 205
9.1 概述 205
9.2 数据仓库设计 209
9.3 联机分析处理 212
9.4 数据仓库应用举例 215
第10章 模糊处理技术 219
10.1 特征函数和隶属度函数 219
10.2 λ-截集 222
10.3 模型识别 223
10.4 模糊关系 223
10.5 模糊聚类 226
11.2 不可分辨关系 233
11.1 概述 233
第11章 粗糙集技术 233
11.3 下近似和上近似 234
11.4 近似精度、粗糙集隶属函数 235
11.5 模糊集与粗糙集 236
11.6 粗糙集技术在数据挖掘中的应用 236
第12章 目标优化技术 239
12.1 概述 239
12.2 无约束非线性规划 240
12.3 有约束非线性规划 244
12.4 大规模优化问题的分解算法 246
第3篇 数据挖掘应用 251
第13章 互联网数据挖掘 251
13.1 互联网数据挖掘的分类和特点 251
13.2 互联网金融数据挖掘 255
13.3 互联网金融数据挖掘和金融市场的关系 259
第14章 互联网金融信息搜索引擎 263
14.1 概述 263
14.2 金融定点收割引擎 265
14.3 金融爬虫搜索引擎 267
14.4 金融信息搜索引擎应用实例 270
14.5 搜索引擎定价 275
第15章 互联网信息流时间序列挖掘 284
15.1 金融信息流概述 284
15.2 时间序列的统计模型 285
15.3 时间序列模式的挖掘 290
15.4 互联网金融信息流时间序列 298
15.5 互联网金融信息流强度时间序列挖掘问题 300
参考文献 304