《数据流分类》PDF下载

  • 购买积分:13 如何计算积分?
  • 作  者:胡学钢,李培培,张玉红,吴信东著
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2015
  • ISBN:9787302405993
  • 页数:386 页
图书介绍:本专著以数据流分类问题研究为主题,介绍数据挖掘及数据流的研究、应用背景,以及当前的主要研究进展与存在的问题;介绍分类挖掘任务中常用模型和技术,为后续数据流分类方法提供技术基础;重点介绍面向数据流概念漂移环境或类标签缺失环境下的数据流分类算法与模型,包括数据流集成分类模型、面向不同漂移特征的概念漂移检测与数据流分类方法以及不完全标记数据流环境下的概念漂移检测与分类方法。

引言篇 3

第1章 数据挖掘 3

1.1 KDD定义和过程 3

1.2 数据挖掘的概念和任务 5

1.3 数据挖掘中的十大算法 6

1.3.1 C4.5 算法 6

1.3.2 k-Means算法 6

1.3.3 SVM算法 7

1.3.4 Apriori算法 8

1.3.5 EM算法 8

1.3.6 PageRank算法 9

1.3.7 AdaBoost算法 9

1.3.8 kNN算法 10

1.3.9 Naive Bayes算法 10

1.3.10 CART算法 11

1.4 数据挖掘中的应用热点 11

1.5 小结 12

参考文献 13

第2章 数据流挖掘 15

2.1 背景 15

2.2 数据流的应用领域及定义 16

2.3 数据流处理的理论基础与挖掘技术 17

2.3.1 基于数据的方法 18

2.3.2 基于任务的方法 19

2.4 数据流挖掘的挑战与任务 19

2.4.1 传统数据挖掘面临的挑战 20

2.4.2 数据流挖掘的挑战 21

2.4.3 数据流的挖掘任务 22

2.5 小结 25

参考文献 25

第3章 数据流分类的关键研究问题 28

3.1 引言 28

3.2 概念描述模型与大纲数据提取问题 29

3.2.1 概念描述模型 29

3.2.2 数据流大纲的提取方法与策略 30

3.3 数据流的概念漂移检测问题 31

3.3.1 概念漂移的基础知识 31

3.3.2 概念漂移的处理方法 33

3.3.3 研究进展 35

3.3.4 技术方案 37

3.4 噪音数据流问题 38

3.4.1 问题描述 38

3.4.2 研究进展与技术方案 39

3.5 数据分布不平衡问题 39

3.5.1 问题描述 39

3.5.2 不平衡数据分布的处理方法 41

3.5.3 研究进展 44

3.5.4 技术方案 45

3.6 不完全标记数据流分类问题 45

3.6.1 问题描述 45

3.6.2 不完全标记数据的处理方法 46

3.6.3 研究进展 47

3.6.4 技术方案 48

3.7 数据流的特征高维稀疏问题 50

3.7.1 问题描述 50

3.7.2 研究进展与技术方案 50

3.8 数据流分类的评价体系 51

3.8.1 问题描述 51

3.8.2 概念漂移检测方法的评估指标 52

3.8.3 数据流分类评估方法 52

3.8.4 设计方案 53

3.9 本章小结 53

参考文献 54

基 础 篇 65

第4章 分类模型与方法 65

4.1 分类的基本知识 65

4.2 分类模型的评估方法 65

4.3 决策树模型 66

4.3.1 传统的决策树模型 66

4.3.2 随机决策树模型 70

4.4 Bayes模型 73

4.4.1 贝叶斯分类的一般原理 73

4.4.2 常见的贝叶斯分类模型 74

4.5 其他分类模型 77

4.5.1 神经网络 77

4.5.2 概念格 77

4.5.3 粗糙集合 79

4.6 集成方法 82

4.6.1 集成分类的基本知识 82

4.6.2 经典的集成分类方法 83

参考文献 84

第5章 特征选择 88

5.1 研究背景及意义 88

5.2 特征选择概述 90

5.2.1 特征选择的相关概念 90

5.2.2 特征选择的过程 91

5.2.3 特征选择的分类 95

5.3 经典特征选择方法概述 97

5.3.1 Relief方法 98

5.3.2 信息熵方法 98

5.3.3 粗糙集合方法 99

5.3.4 遗传算法 100

5.3.5 One-R方法 101

5.3.6 LARS算法 102

5.4 特征选择面临的挑战 104

参考文献 104

专题 篇 111

第6章 数据流的集成分类方法研究 111

6.1 引言 111

6.2 数据流分类的集成策略 111

6.2.1 WE集成方法 112

6.2.2 AP集成方法 113

6.2.3 WE与AP混合集成方法 113

6.2.4 基于WE的混合集成方法 114

6.3 基于决策树模型的集成分类方法 122

6.3.1 基于UFFT的集成分类方法 123

6.3.2 基于随机决策树的集成分类方法 130

6.4 本章小结 148

参考文献 149

第7章 数据流中概念漂移检测与分类问题研究 152

7.1 引言 152

7.2 基于增量式决策树的数据流概念漂移检测与分类方法 153

7.2.1 CVFDT系列数据流概念漂移检测与分类方法 153

7.2.2 RDT系列数据流概念漂移检测与分类方法 157

7.3 面向不同漂移特征的概念漂移数据流分类算法 158

7.3.1 基于C4.5 和Naive Bayes混合模型的概念漂移数据流分类算法 158

7.3.2 基于变体RDT模型的概念漂移数据流检测与分类方法 165

7.3.3 CDRDT算法:一种快速的数据流概念漂移检测与分类算法 175

7.3.4 基于双层窗口的概念漂移数据流分类算法 190

7.4 本章小结 198

参考文献 198

第8章 不完全标记数据流分类问题研究 205

8.1 引言 205

8.2 不完全标记数据流的处理技术 206

8.2.1 基于k-Means与增量式决策树的模型 207

8.2.2 基于k-Modes与增量式决策树的模型 213

8.3 不完全标记数据流中的概念漂移检测 219

8.3.1 研究现状 220

8.3.2 基于聚类概念簇差异的概念漂移检测机制 222

8.3.3 实验结果与分析 227

8.4 不完全标记数据流中的重现概念漂移检测 229

8.4.1 研究现状 229

8.4.2 基于聚类概念簇差异的重复再现概念检测机制 231

8.4.3 实验结果与分析 234

8.5 算法框架与实验分析 237

8.5.1 SUN算法框架 237

8.5.2 SUN算法的实验结果与分析 238

8.5.3 REDLLA算法框架 240

8.5.4 REDLLA算法的实验结果与分析 241

8.6 不完全标记数据流分类任务中的开放性问题 245

8.7 本章小结 246

参考文献 246

第9章 面向应用数据的特征降维方法研究 251

9.1 引言 251

9.2 文本分类中的特征降维 252

9.2.1 经典文本特征降维算法 254

9.2.2 基于语义信息的特征降维方法 257

9.3 基于本体的特征降维算法 261

9.3.1 相关定义 261

9.3.2 算法框架 263

9.3.3 算法技术细节 264

9.3.4 实验结果与分析 266

9.4 基于迭代Lasso的肿瘤分类信息基因选择方法 278

9.4.1 引言 278

9.4.2 方法GSIL系统框架 280

9.4.3 实验结果与分析 284

9.4.4 小结 291

9.5 流环境下实时的特征降维方法 291

9.5.1 引言 291

9.5.2 IV指标定义 293

9.5.3 基于IV指标的特征选择方法FS-IV 296

9.5.4 FS-IV的实验结果及分析 297

9.5.5 FS-IV在入侵检测数据流中的应用 300

9.5.6 FS-IV在网络交易数据流中的应用 303

9.6 本章小结 305

参考文献 306

实验资源篇 315

第10章 数据流分类算法实验工具包ETDSv1.0 315

10.1 引言 315

10.2 软件的配置、运行与功能 316

10.2.1 软件的配置与运行 316

10.2.2 软件功能 317

10.3 数据生成器 318

10.3.1 视图界面中数据生成器主菜单 319

10.3.2 数据库两大生成器菜单功能介绍 319

10.4 SRMTDS算法 322

10.4.1 SRMTDS算法参数设定菜单 322

10.4.2 SRMTDS算法特征数据库读取与算法运行菜单 326

10.5 SRMTCD(MSRT)算法 328

10.5.1 SRMTCD(MSRT)算法参数设定菜单 328

10.5.2 SRMTCD(MSRT)算法特征数据库读取与算法运行菜单 331

10.6 EDT算法 333

10.6.1 EDT算法参数设定菜单 334

10.6.2 EDT算法特征数据库读取与算法运行菜单 337

10.7 EDTC算法 340

10.7.1 EDTC算法参数设定菜单 340

10.7.2 EDTC算法特征数据库读取与算法运行菜单 342

10.8 CDRDT算法 345

10.8.1 CDRDT算法参数设定菜单 345

10.8.2 CDRDT算法特征数据库读取与算法运行菜单 347

10.9 DWCDS算法 349

10.9.1 DWCDS算法参数设定菜单 349

10.9.2 DWCDS算法特征数据库读取与算法运行菜单 351

10.10 附录 353

10.10.1 数据流实验工具算法布局图 353

10.10.2 数据流分类算法运行流程图 353

第11章 经典的数据流分类算法实验工具 355

11.1 VFML 355

11.1.1 VFDTc算法 355

11.1.2 CVFDT算法 358

11.2 MOA 364

11.2.1 MOA的界面操作 365

11.2.2 MOA命令行使用方法 375

参考文献 377

第12章 数据流分类算法常用的实验数据集 378

12.1 非概念漂移数据流 378

12.1.1 合成数据集 378

12.1.2 真实数据集 378

12.2 概念漂移数据集 379

12.2.1 合成数据集 379

12.2.2 真实数据集 381

参考文献 384