《高维数据挖掘技术研究》PDF下载

  • 购买积分:8 如何计算积分?
  • 作  者:杨风召著
  • 出 版 社:南京:东南大学出版社
  • 出版年份:2007
  • ISBN:7564109777
  • 页数:126 页
图书介绍:本书对高维数据挖掘中的相似性搜索、高维数据聚类、异常检测等技术进行了研究,指出了高维给这些领域带来的影响,提出了解决的方法,具有一定指导意义。

1 绪论 1

1.1 研究背景 1

1.1.1 数据挖掘技术的产生和发展 1

1.1.2 高维数据挖掘的概念 2

1.2 高维数据挖掘所遇到的困难 4

1.2.1 高维数据的特点 4

1.2.2 维灾(the curse of dimensionality) 5

1.2.3 高维对数据挖掘的影响 5

1.3 高维数据挖掘的主要研究方向 7

1.3.1 高维空间中的距离函数或相似性度量函数 7

1.3.2 高效的高维数据相似性搜索算法 7

1.3.3 高效的高维数据挖掘算法 7

1.3.4 在高维空间中对失效的问题的处理 7

1.3.5 选维和降维 7

1.4 术语和符号约定 8

1.4.1 基本术语 8

1.4.2 符号约定 8

1.5 本书结构 9

2 高维数据的相似性查询处理 10

2.1 相似性查询 10

2.2 维归约 11

2.2.1 选维 11

2.2.2 降维 12

2.3 高维索引结构 13

2.4 相似性查询方法 16

2.4.1 RKV算法 16

2.4.2 HS算法 17

2.4.3 其他高维数据的相似性搜索算法 18

2.5 高维数据相似性搜索方法的讨论 19

2.5.1 维归约技术的局限 19

2.5.2 高维索引结构在性能上的局限 19

2.6 本章小结 19

3 一种新的高维数据相似性度量函数Hsim() 19

3.1 最近邻查询的不稳定性 21

3.2 高维空间中的最近邻特性 22

3.3 高维空间中的Lk-范数特性的深入探讨 25

3.4 高维空间距离函数的重新设计 26

3.5 Hsim()函数的讨论 28

3.5.1 Hsim()函数的推广 28

3.5.2 数据的规范化 28

3.5.3 对高维数据中空值的处理 29

3.6 Hsim()与其他相似性度量方法的比较 29

3.6.1 由距离度量转换来的相似性度量 29

3.6.2 Cosine度量 30

3.6.3 Pearson相关系数 31

3.6.4 Jaccard系数 32

3.7 本章小结 33

4 量化交易数据的相似性搜索 34

4.1 量化交易数据 34

4.2 量化交易数据的相似性度量 35

4.3 索引结构的建立 35

4.3.1 特征表 36

4.3.2 特征划分 37

4.4 相似性搜索算法 39

4.5 举例 42

4.6 性能分析 44

4.7 本章小结 46

5 一种基于评分的协同过滤算法 48

5.1 相关研究工作 48

5.1.1 基于用户的推荐算法 49

5.1.2 基于项的推荐算法 50

5.1.3 两种推荐算法的比较 51

5.1.4 维归约技术 51

5.2 基于特征表的评分数据协同过滤算法[YZS03] 51

5.2.1 相似性度量 51

5.2.2 基于特征表的协同过滤算法 52

5.3 实验评价 53

5.3.1 数据集 53

5.3.2 评价指标 53

5.3.3 实验结果 54

5.4 本章小结 55

6 高维数据聚类算法分析 56

6.1 一般聚类算法概述 56

6.1.1 分层法 56

6.1.2 划分法 57

6.1.3 基于密度的方法 58

6.1.4 基于网格的方法 59

6.2 高维对聚类算法的影响及高维数据聚类方法 60

6.2.1 高维对聚类算法效率的影响 60

6.2.2 高维可能导致传统的聚类概念失去意义 60

6.2.3 高维数据聚类方法 61

6.3 子空间聚类 61

6.3.1 重叠划分子空间聚类算法 62

6.3.2 无重叠划分子空间聚类算法 63

6.3.3 最优投影聚类算法 64

6.3.4 子空间聚类算法的推广 65

6.4 优化的网格分割聚类方法 66

6.4.1 优化的网格分割 66

6.4.2 优化的网格分割算法 67

6.4.3 优化的网格分割算法性能的改进 67

6.5 高维类别数据聚类算法 69

6.6 基于对象相似性的高维数据聚类算法 69

6.6.1 基于对象相似性的聚类算法框架 69

6.6.2 基于SL树的图分割算法 70

6.6.3 HETIS算法 71

6.6.4 应用分析 72

6.7 本章小结 73

7 高维数据异常检测 74

7.1 异常检测算法分析 74

7.1.1 基于统计的算法 74

7.1.2 基于深度的算法 75

7.1.3 基于偏差的算法 75

7.1.4 基于距离的算法 75

7.1.5 基于密度的算法 77

7.2 高维对异常检测算法的影响 80

7.2.1 高维对基于统计算法的影响 80

7.2.2 高维对基于深度算法的影响 80

7.2.3 高维对基于距离算法的影响 80

7.2.4 高维对基于密度算法的影响 81

7.2.5 高维异常检测的问题与出路 81

7.3 投影异常的概念及其检测算法 82

7.3.1 投影异常的定义 82

7.3.2 蛮力搜索算法 83

7.3.3 遗传算法 83

7.4 动态环境下局部异常的增量挖掘算法IncLOF 86

7.4.1 受影响对象 87

7.4.2 数据插入 88

7.4.3 数据删除 91

7.4.4 IncLOF的算法复杂度分析 93

7.4.5 性能分析 93

7.5 本章小结 96

8 高维数据的频繁模式挖掘 97

8.1 频繁模式挖掘问题 97

8.1.1 关联规则挖掘问题的提出 97

8.1.2 频繁模式和频繁封闭模式挖掘 98

8.2 定义和术语 98

8.3 基于特征计数的频繁封闭模式挖掘算法 99

8.4 基于行计数的频繁封闭模式挖掘算法 100

8.4.1 自底向上深度优先搜索算法 101

8.4.2 自顶向下深度优先搜索算法 103

8.5 基于行计数和特征计数的混合计数频繁封闭模式挖掘算法 109

8.5.1 动态计数树 109

8.5.2 算法[PTCX04] 113

8.5.3 转换条件 115

8.6 本章小结 116

参考文献 117