第1章 高维大数据 1
1.1 大数据介绍 1
1.1.1 大数据的产生背景 1
1.1.2 大数据的重要性 1
1.1.3 大数据的定义和特征 2
1.1.4 大数据的构成 5
1.1.5 大数据的机遇和挑战 6
1.1.6 大数据应用的发展方向 9
1.2 大数据分析挖掘技术 10
1.3 大数据高维特征处理 11
1.3.1 大数据分析挖掘过程 11
1.3.2 大数据的维数 13
参考文献 14
第2章 大数据的维数约简 15
2.1 大数据维数约简的目的 15
2.2 维数约简的有关定义及分类 15
2.2.1 维数约简的有关定义 15
2.2.2 维数约简分类 17
参考文献 17
第3章 大数据的特征选择 19
3.1 特征选择的数学描述及其优势 19
3.2 特征选择基本框架 19
3.2.1 子集生成 21
3.2.2 评价测度 24
3.2.3 停止条件 33
3.2.4 结果验证 34
3.3 特征选择算法分类 34
3.3.1 按样本是否标记分类 34
3.3.2 按与学习算法的结合方式分类 34
3.3.3 Filter方法 36
3.3.4 Wrapper方法 39
3.3.5 Embeded方法 40
3.3.6 Hybrid方法 41
3.4 特征选择的稳定性 41
3.4.1 特征选择方法的稳定性 41
3.4.2 稳定的特征选择方法 42
3.4.3 特征选择方法的稳定性评价准则 44
参考文献 46
第4章 大数据特征提取 50
4.1 特征提取的概念 50
4.2 特征提取的分类 50
4.3 特征选择与特征提取方法的比较 51
4.4 线性特征提取 51
4.4.1 线性特征提取的思想 51
4.4.2 主成分分析 52
4.4.3 线性判别分析 58
4.4.4 独立成分分析 63
4.4.5 最大间距准则 74
参考文献 78
第5章 非线性特征提取 80
5.1 核方法 80
5.1.1 核方法原理 80
5.1.2 核主成分分析 82
5.1.3 核线性判别分析 85
5.1.4 核局部线性判别分析 87
5.2 流形学习方法 88
5.2.1 流形学习方法的概念 88
5.2.2 流形学习方法的分类 89
5.2.3 等距映射算法 90
5.2.4 局部线性嵌入算法 91
5.2.5 拉普拉斯特征映射算法 92
5.2.6 海赛局部线性嵌入算法 94
5.2.7 局部切空间排列算法 94
5.2.8 流形学习方法在应用中遇到的主要问题 95
参考文献 96
第6章 图方法 97
6.1 图的基本概念 97
6.2 相似性计算 100
6.3 图嵌入框架 100
6.4 图嵌入的线性扩展 101
6.4.1 主成分分析 102
6.4.2 线性判别分析 103
6.4.3 边界费舍尔分析 105
6.5 图嵌入的核化扩展 106
6.6 图嵌入的张量扩展 107
6.7 图嵌入面临的挑战 109
参考文献 110
第7章 稀疏大数据的维数约简 112
7.1 稀疏矩阵的应用及概念 112
7.2 稀疏表示理论及重构 112
7.2.1 范数稀疏解 112
7.2.2 稀疏表示理论概述 114
7.2.3 稀疏重构 114
7.2.4 基于稀疏表示的算法流程 114
7.3 线性回归模型 115
7.3.1 最小二乘法 115
7.3.2 岭回归 115
7.3.3 套索回归 116
7.4 稀疏保持映射 118
7.4.1 稀疏保持映射原理 118
7.4.2 稀疏保持映射算法流程 120
7.4.3 SPP优点 120
7.5 基于Lasso的稀疏主成分 121
7.6 稀疏判别分析 125
参考文献 125