引言篇 3
第1章 数据挖掘 3
1.1 KDD定义和过程 3
1.2 数据挖掘的概念和任务 5
1.3 数据挖掘中的十大算法 6
1.3.1 C4.5 算法 6
1.3.2 k-Means算法 6
1.3.3 SVM算法 7
1.3.4 Apriori算法 8
1.3.5 EM算法 8
1.3.6 PageRank算法 9
1.3.7 AdaBoost算法 9
1.3.8 kNN算法 10
1.3.9 Naive Bayes算法 10
1.3.10 CART算法 11
1.4 数据挖掘中的应用热点 11
1.5 小结 12
参考文献 13
第2章 数据流挖掘 15
2.1 背景 15
2.2 数据流的应用领域及定义 16
2.3 数据流处理的理论基础与挖掘技术 17
2.3.1 基于数据的方法 18
2.3.2 基于任务的方法 19
2.4 数据流挖掘的挑战与任务 19
2.4.1 传统数据挖掘面临的挑战 20
2.4.2 数据流挖掘的挑战 21
2.4.3 数据流的挖掘任务 22
2.5 小结 25
参考文献 25
第3章 数据流分类的关键研究问题 28
3.1 引言 28
3.2 概念描述模型与大纲数据提取问题 29
3.2.1 概念描述模型 29
3.2.2 数据流大纲的提取方法与策略 30
3.3 数据流的概念漂移检测问题 31
3.3.1 概念漂移的基础知识 31
3.3.2 概念漂移的处理方法 33
3.3.3 研究进展 35
3.3.4 技术方案 37
3.4 噪音数据流问题 38
3.4.1 问题描述 38
3.4.2 研究进展与技术方案 39
3.5 数据分布不平衡问题 39
3.5.1 问题描述 39
3.5.2 不平衡数据分布的处理方法 41
3.5.3 研究进展 44
3.5.4 技术方案 45
3.6 不完全标记数据流分类问题 45
3.6.1 问题描述 45
3.6.2 不完全标记数据的处理方法 46
3.6.3 研究进展 47
3.6.4 技术方案 48
3.7 数据流的特征高维稀疏问题 50
3.7.1 问题描述 50
3.7.2 研究进展与技术方案 50
3.8 数据流分类的评价体系 51
3.8.1 问题描述 51
3.8.2 概念漂移检测方法的评估指标 52
3.8.3 数据流分类评估方法 52
3.8.4 设计方案 53
3.9 本章小结 53
参考文献 54
基 础 篇 65
第4章 分类模型与方法 65
4.1 分类的基本知识 65
4.2 分类模型的评估方法 65
4.3 决策树模型 66
4.3.1 传统的决策树模型 66
4.3.2 随机决策树模型 70
4.4 Bayes模型 73
4.4.1 贝叶斯分类的一般原理 73
4.4.2 常见的贝叶斯分类模型 74
4.5 其他分类模型 77
4.5.1 神经网络 77
4.5.2 概念格 77
4.5.3 粗糙集合 79
4.6 集成方法 82
4.6.1 集成分类的基本知识 82
4.6.2 经典的集成分类方法 83
参考文献 84
第5章 特征选择 88
5.1 研究背景及意义 88
5.2 特征选择概述 90
5.2.1 特征选择的相关概念 90
5.2.2 特征选择的过程 91
5.2.3 特征选择的分类 95
5.3 经典特征选择方法概述 97
5.3.1 Relief方法 98
5.3.2 信息熵方法 98
5.3.3 粗糙集合方法 99
5.3.4 遗传算法 100
5.3.5 One-R方法 101
5.3.6 LARS算法 102
5.4 特征选择面临的挑战 104
参考文献 104
专题 篇 111
第6章 数据流的集成分类方法研究 111
6.1 引言 111
6.2 数据流分类的集成策略 111
6.2.1 WE集成方法 112
6.2.2 AP集成方法 113
6.2.3 WE与AP混合集成方法 113
6.2.4 基于WE的混合集成方法 114
6.3 基于决策树模型的集成分类方法 122
6.3.1 基于UFFT的集成分类方法 123
6.3.2 基于随机决策树的集成分类方法 130
6.4 本章小结 148
参考文献 149
第7章 数据流中概念漂移检测与分类问题研究 152
7.1 引言 152
7.2 基于增量式决策树的数据流概念漂移检测与分类方法 153
7.2.1 CVFDT系列数据流概念漂移检测与分类方法 153
7.2.2 RDT系列数据流概念漂移检测与分类方法 157
7.3 面向不同漂移特征的概念漂移数据流分类算法 158
7.3.1 基于C4.5 和Naive Bayes混合模型的概念漂移数据流分类算法 158
7.3.2 基于变体RDT模型的概念漂移数据流检测与分类方法 165
7.3.3 CDRDT算法:一种快速的数据流概念漂移检测与分类算法 175
7.3.4 基于双层窗口的概念漂移数据流分类算法 190
7.4 本章小结 198
参考文献 198
第8章 不完全标记数据流分类问题研究 205
8.1 引言 205
8.2 不完全标记数据流的处理技术 206
8.2.1 基于k-Means与增量式决策树的模型 207
8.2.2 基于k-Modes与增量式决策树的模型 213
8.3 不完全标记数据流中的概念漂移检测 219
8.3.1 研究现状 220
8.3.2 基于聚类概念簇差异的概念漂移检测机制 222
8.3.3 实验结果与分析 227
8.4 不完全标记数据流中的重现概念漂移检测 229
8.4.1 研究现状 229
8.4.2 基于聚类概念簇差异的重复再现概念检测机制 231
8.4.3 实验结果与分析 234
8.5 算法框架与实验分析 237
8.5.1 SUN算法框架 237
8.5.2 SUN算法的实验结果与分析 238
8.5.3 REDLLA算法框架 240
8.5.4 REDLLA算法的实验结果与分析 241
8.6 不完全标记数据流分类任务中的开放性问题 245
8.7 本章小结 246
参考文献 246
第9章 面向应用数据的特征降维方法研究 251
9.1 引言 251
9.2 文本分类中的特征降维 252
9.2.1 经典文本特征降维算法 254
9.2.2 基于语义信息的特征降维方法 257
9.3 基于本体的特征降维算法 261
9.3.1 相关定义 261
9.3.2 算法框架 263
9.3.3 算法技术细节 264
9.3.4 实验结果与分析 266
9.4 基于迭代Lasso的肿瘤分类信息基因选择方法 278
9.4.1 引言 278
9.4.2 方法GSIL系统框架 280
9.4.3 实验结果与分析 284
9.4.4 小结 291
9.5 流环境下实时的特征降维方法 291
9.5.1 引言 291
9.5.2 IV指标定义 293
9.5.3 基于IV指标的特征选择方法FS-IV 296
9.5.4 FS-IV的实验结果及分析 297
9.5.5 FS-IV在入侵检测数据流中的应用 300
9.5.6 FS-IV在网络交易数据流中的应用 303
9.6 本章小结 305
参考文献 306
实验资源篇 315
第10章 数据流分类算法实验工具包ETDSv1.0 315
10.1 引言 315
10.2 软件的配置、运行与功能 316
10.2.1 软件的配置与运行 316
10.2.2 软件功能 317
10.3 数据生成器 318
10.3.1 视图界面中数据生成器主菜单 319
10.3.2 数据库两大生成器菜单功能介绍 319
10.4 SRMTDS算法 322
10.4.1 SRMTDS算法参数设定菜单 322
10.4.2 SRMTDS算法特征数据库读取与算法运行菜单 326
10.5 SRMTCD(MSRT)算法 328
10.5.1 SRMTCD(MSRT)算法参数设定菜单 328
10.5.2 SRMTCD(MSRT)算法特征数据库读取与算法运行菜单 331
10.6 EDT算法 333
10.6.1 EDT算法参数设定菜单 334
10.6.2 EDT算法特征数据库读取与算法运行菜单 337
10.7 EDTC算法 340
10.7.1 EDTC算法参数设定菜单 340
10.7.2 EDTC算法特征数据库读取与算法运行菜单 342
10.8 CDRDT算法 345
10.8.1 CDRDT算法参数设定菜单 345
10.8.2 CDRDT算法特征数据库读取与算法运行菜单 347
10.9 DWCDS算法 349
10.9.1 DWCDS算法参数设定菜单 349
10.9.2 DWCDS算法特征数据库读取与算法运行菜单 351
10.10 附录 353
10.10.1 数据流实验工具算法布局图 353
10.10.2 数据流分类算法运行流程图 353
第11章 经典的数据流分类算法实验工具 355
11.1 VFML 355
11.1.1 VFDTc算法 355
11.1.2 CVFDT算法 358
11.2 MOA 364
11.2.1 MOA的界面操作 365
11.2.2 MOA命令行使用方法 375
参考文献 377
第12章 数据流分类算法常用的实验数据集 378
12.1 非概念漂移数据流 378
12.1.1 合成数据集 378
12.1.2 真实数据集 378
12.2 概念漂移数据集 379
12.2.1 合成数据集 379
12.2.2 真实数据集 381
参考文献 384