《生物序列化表征模型的矩阵分解方法及其应用》PDF下载

  • 购买积分:9 如何计算积分?
  • 作  者:余宏杰著
  • 出 版 社:合肥:中国科学技术大学出版社
  • 出版年份:2014
  • ISBN:9787312034541
  • 页数:199 页
图书介绍:本书以生物序列的数值化表征模型所涉及的矩阵分解为核心,以序列的特征信息提取为主要目标,在非序列比对(Alignment-free)的框架下,分别提出了针对DNA/蛋白质序列、基因组序列等若干个不同的特征信息抽取模型,并将所抽取的特征信息,应用于序列的相似度分析.本书取材广泛、内容新颖、理论与应用紧密结合。书中所介绍的生物序列的建模方法、矩阵分解抽取其特征信息的研究策略,可供读者在解决实际问题时予以借鉴。本书适合生物信息学、图像处理、信号处理等领域有关科研人员参考使用。

第1章 绪论 1

1.1 生物信息学海量数据的产生背景 1

1.1.1 生物信息学简介 1

1.1.2 两种基本的生物序列 2

1.2 生物序列比对概述 4

1.3 基于序列比对的系统发育树构建方法 5

1.3.1 分子进化研究的基本方法 5

1.3.2 构建系统进化树的详细步骤 6

1.3.3 构建系统发育树需要注意的几个问题 10

1.4 生物序列数值化表征模型的矩阵分解方法的研究背景 11

1.4.1 序列图形化表征 12

1.4.2 基因组序列数值化表征及应用 13

1.4.3 蛋白质序列数值化表征及应用 14

1.4.4 有关K-mer的算法概述 15

1.5 本书的内容安排 16

第2章 基于矩阵束联合对角化的DNA序列图形化表征及其应用 19

2.1 DNA序列的图形化表征方法概述 19

2.2 DNA序列的描述符 20

2.2.1 相关的一些工作 20

2.2.2 构建序列的邻接矩阵 20

2.2.3 矩阵分解理论简介 21

2.2.4 有关矩阵对角化的理论 29

2.2.5 近似联合对角化(AJD) 35

2.2.6 算法的保距性 36

2.3 图形化表示法 39

2.3.1 计算特征值组成的序列表征向量(EVV) 40

2.3.2 AJD算法收敛性分析 40

2.3.3 基于特征值组成的表征向量(EVV)的序列图形聚类 41

2.4 相似度分析 43

2.4.1 聚类分析基本原理 43

2.4.2 计算成对距离 59

2.4.3 11条β球蛋白基因的系统谱系分析 59

2.4.4 与相关工作的比较 60

2.5 本章结论 62

第3章 基于SVD的基因组序列保序变换及其应用 64

3.1 DNA序列数值描述符 64

3.2 从基因组序列向数值向量的保序变换 65

3.2.1 基因组序列变换矩阵的构建 65

3.2.2 所提出的序列变换算法具有的良好性质 67

3.2.3 保序变换-奇异值分解(OPT-SVD)算法的过程描述 107

3.3 保序变换算法在基因组序列相似度/相异度分析中的应用 108

3.4 本章结论 113

第4章 基于保距映射算法的基因组序列Map示图及应用 114

4.1 受PCA的启发尝试对基因组序列数值描述 114

4.2 基因组序列的“保距”变换 115

4.2.1 特征矩阵的构建 115

4.2.2 基因组序列变换的特性 115

4.3 基于保距变换算法的基因组序列的相似度分析 118

4.3.1 第一个数据集上的实验结果 118

4.3.2 另一个更大规模数据集上的实验结果 124

4.4 本章结论 127

第5章 基于NFV-AAA算法的蛋白质序列相似度分析 128

5.1 基于K-mer的组分向量法背景概述 128

5.2 基于氨基酸(AAA)分布的蛋白质序列描述符 129

5.2.1 描述符的范式 129

5.2.2 蛋白质序列转换成400 × (L-1)稀疏矩阵 132

5.2.3 AAA优于SAA 133

5.2.4 对特征矩阵M施行SVD以抽取序列的特征 135

5.3 NFV在相似度分析中的应用 136

5.3.1 九条ND5蛋白质序列的相似度分析 136

5.3.2 在24条转铁蛋白序列的数据集上的应用 141

5.4 本章结论 143

第6章 分段K-mer算法及其在序列相似度分析中的应用 144

6.1 K-mer分析法优劣性分析 144

6.2 基因组序列的描述符 145

6.3 s-K-mer在34条线粒体基因组序列数据集上的应用 147

6.3.1 优化算法的数据准备 147

6.3.2 对K-mer进行寻优以便获得其最优阶数K值 148

6.3.3 s-K-mer算法的性能 150

6.3.4 利用s-K-mer对基因组作系统发生分析 153

6.4 本章结论 154

第7章 基于层级虚拟混合与投影抽取的基因组序列比较 155

7.1 有关FFP与ICA背景概述 155

7.2 基因组序列特征提取模型 160

7.2.1 基于K-mer虚拟混合器的基因组序列数据预处理 160

7.2.2 虚拟混合与投影抽取模型 162

7.2.3 层级的VMPE模型 166

7.3 HVMPE模型在真实基因组数据集上的应用 168

7.3.1 先行相关数据的准备 168

7.3.2 确定虚拟混合器(VM)的最佳阶数K 171

7.3.3 对HVMPE模型进行最佳段数s值的寻优 171

7.3.4 层级的VMPE模型的效果分析 172

7.3.5 基于HVMPE模型的基因组序列种系发生分析 174

7.3.6 在另一个基因组数据集上的应用 176

7.4 本章结论 177

第8章 总结与展望 179

8.1 本书的主要工作与创新点 179

8.2 未来工作的设想 181

8.2.1 NMF的基本原理 182

8.2.2 序列分析中引入NMF算法的构想 186

参考文献 188