《面向大数据的高维数据挖掘技术》PDF下载

  • 购买积分:8 如何计算积分?
  • 作  者:王和勇著
  • 出 版 社:西安:西安电子科技大学出版社
  • 出版年份:2018
  • ISBN:9787560642185
  • 页数:126 页
图书介绍:数据的特征属性(即维度)在一定范围内,数据的分类效率会随着特征属性的增长呈指数形式增长,但当数据的维度过高时,其中往往包含了过多无关项、冗余项、干扰项等,分类的效率反而会随着维数的增长而下降。因此,如何从海量高维度数据中剔除无关项、降低数据维数、提高分类效率便成了处理数据的关键。所以本书主要研究大数据高维数据如何进行处理。

第1章 高维大数据 1

1.1 大数据介绍 1

1.1.1 大数据的产生背景 1

1.1.2 大数据的重要性 1

1.1.3 大数据的定义和特征 2

1.1.4 大数据的构成 5

1.1.5 大数据的机遇和挑战 6

1.1.6 大数据应用的发展方向 9

1.2 大数据分析挖掘技术 10

1.3 大数据高维特征处理 11

1.3.1 大数据分析挖掘过程 11

1.3.2 大数据的维数 13

参考文献 14

第2章 大数据的维数约简 15

2.1 大数据维数约简的目的 15

2.2 维数约简的有关定义及分类 15

2.2.1 维数约简的有关定义 15

2.2.2 维数约简分类 17

参考文献 17

第3章 大数据的特征选择 19

3.1 特征选择的数学描述及其优势 19

3.2 特征选择基本框架 19

3.2.1 子集生成 21

3.2.2 评价测度 24

3.2.3 停止条件 33

3.2.4 结果验证 34

3.3 特征选择算法分类 34

3.3.1 按样本是否标记分类 34

3.3.2 按与学习算法的结合方式分类 34

3.3.3 Filter方法 36

3.3.4 Wrapper方法 39

3.3.5 Embeded方法 40

3.3.6 Hybrid方法 41

3.4 特征选择的稳定性 41

3.4.1 特征选择方法的稳定性 41

3.4.2 稳定的特征选择方法 42

3.4.3 特征选择方法的稳定性评价准则 44

参考文献 46

第4章 大数据特征提取 50

4.1 特征提取的概念 50

4.2 特征提取的分类 50

4.3 特征选择与特征提取方法的比较 51

4.4 线性特征提取 51

4.4.1 线性特征提取的思想 51

4.4.2 主成分分析 52

4.4.3 线性判别分析 58

4.4.4 独立成分分析 63

4.4.5 最大间距准则 74

参考文献 78

第5章 非线性特征提取 80

5.1 核方法 80

5.1.1 核方法原理 80

5.1.2 核主成分分析 82

5.1.3 核线性判别分析 85

5.1.4 核局部线性判别分析 87

5.2 流形学习方法 88

5.2.1 流形学习方法的概念 88

5.2.2 流形学习方法的分类 89

5.2.3 等距映射算法 90

5.2.4 局部线性嵌入算法 91

5.2.5 拉普拉斯特征映射算法 92

5.2.6 海赛局部线性嵌入算法 94

5.2.7 局部切空间排列算法 94

5.2.8 流形学习方法在应用中遇到的主要问题 95

参考文献 96

第6章 图方法 97

6.1 图的基本概念 97

6.2 相似性计算 100

6.3 图嵌入框架 100

6.4 图嵌入的线性扩展 101

6.4.1 主成分分析 102

6.4.2 线性判别分析 103

6.4.3 边界费舍尔分析 105

6.5 图嵌入的核化扩展 106

6.6 图嵌入的张量扩展 107

6.7 图嵌入面临的挑战 109

参考文献 110

第7章 稀疏大数据的维数约简 112

7.1 稀疏矩阵的应用及概念 112

7.2 稀疏表示理论及重构 112

7.2.1 范数稀疏解 112

7.2.2 稀疏表示理论概述 114

7.2.3 稀疏重构 114

7.2.4 基于稀疏表示的算法流程 114

7.3 线性回归模型 115

7.3.1 最小二乘法 115

7.3.2 岭回归 115

7.3.3 套索回归 116

7.4 稀疏保持映射 118

7.4.1 稀疏保持映射原理 118

7.4.2 稀疏保持映射算法流程 120

7.4.3 SPP优点 120

7.5 基于Lasso的稀疏主成分 121

7.6 稀疏判别分析 125

参考文献 125