第1章 概论 1
1.1 数据挖掘基础 1
1.2 数据挖掘模型 2
1.2.1 分类分析 4
1.2.2 聚类分析 5
1.2.3 关联分析 6
1.2.4 回归分析 6
1.3 维灾问题 7
1.3.1 数据挖掘中的特征 7
1.3.2 什么是维灾 9
1.3.3 如何应对维灾问题 11
1.4 特征约简及其应用 13
1.4.1 特征约简概述 13
1.4.2 特征约简的应用 15
1.5 关于数据类型 17
1.5.1 数值型数据 17
1.5.2 类属型数据 19
参考文献 20
第2章 特征约简技术 23
2.1 理论基础 23
2.2 主要技术 25
2.2.1 特征选择 26
2.2.2 特征变换 27
2.3 过滤型特征约简 30
2.4 封装型特征约简 32
2.5 嵌入型特征约简 35
参考文献 37
第3章 特征变换方法 41
3.1 特征变换的基本原理 41
3.2 SVD 41
3.3 PCA 43
3.3.1 PCA原理 43
3.3.2 主成分个数的选取 45
3.4 ICA 46
3.4.1 ICA概念 46
3.4.2 ICA估计原理 47
3.5 LDA 48
3.6 NMF 52
3.6.1 NMF的基本思想 52
3.6.2 损失函数及迭代规则 53
3.7 非线性特征变换 54
3.8 主要特征变换方法对比 57
参考文献 60
第4章 特征选择方法 63
4.1 特征选择的基本原理 63
4.2 特征评价函数 65
4.2.1 无监督评价函数 65
4.2.2 有监督评价函数 68
4.2.3 信息度量 72
4.3 粗糙集方法 76
4.3.1 基本概念 76
4.3.2 差别矩阵法 77
4.3.3 启发式属性约简法 78
4.3.4 与其他软计算相结合的方法 79
4.3.5 基于粗糙集的入侵检测特征选择 81
4.4 特征组选择 85
4.5 层次特征选择及其应用 87
4.5.1 背景知识 87
4.5.2 恶意代码的层次特征选择 89
参考文献 92
第5章 自动特征选择技术 96
5.1 自动特征选择 96
5.2 子空间聚类 98
5.2.1 子空间类型 99
5.2.2 子空间簇类 101
5.3 主要技术 103
5.3.1 硬特征选择 103
5.3.2 软特征选择 107
5.3.3 类属型特征选择 117
5.4 嵌入型特征选择的概率模型方法 120
5.4.1 数值型数据的概率模型方法 120
5.4.2 类属型数据的概率模型方法 127
5.5 无中心聚类中的自动特征选择 135
5.5.1 属性加权的无中心聚类模型 136
5.5.2 软特征选择方法及分析 139
参考文献 142
第6章 子空间分类及其应用 146
6.1 分类挖掘概述 146
6.1.1 分类及分类挖掘过程 146
6.1.2 常用的分类方法 149
6.2 子空间分类技术 156
6.3 子空间贝叶斯分类及其应用 160
6.3.1 类属型数据子空间贝叶斯分类 162
6.3.2 数值型高维数据子空间贝叶斯分类 167
6.3.3 基因数据子空间分类应用 174
6.4 子空间近邻分类及其应用 176
6.4.1 特征加权的近邻分类 177
6.4.2 子空间原型分类 182
6.4.3 文档子空间分类 185
6.5 网络入侵检测中的特征约简 194
6.5.1 网络入侵检测数据 194
6.5.2 关键特征选择 196
6.5.3 特征选择结果及分析 198
参考文献 200