第1章 绪论 1
1.1 生物信息学概述 2
1.1.1 基因组序列分析 3
1.1.2 蛋白质组研究 5
1.1.3 系统生物学研究 6
1.2 数据挖掘方法在生物信息学中的应用 7
1.3 本书的主要工作和章节安排 10
第2章 基于子空间聚类的基因表达分析 14
2.1 研究背景 14
2.1.1 基因的表达 14
2.1.2 基因表达数据的测量 15
2.1.3 基因表达数据的分析 16
2.1.4 基因表达数据特性 17
2.1.5 子空间聚类算法概述 18
2.2 聚类方法 20
2.2.1 基本定义 23
2.2.2 基于模式相似的子空间聚类算法 25
2.3 实验结果与讨论 32
2.3.1 模拟数据集上的实验结果 32
2.3.2 实际数据集上的实验结果 34
2.4 本章小结 35
第3章 基于相似模式搜索的启动子发现 39
3.1 研究背景 39
3.1.1 启动子概念 39
3.1.2 现有启动子预测方法 41
3.2 数据与方法 45
3.2.1 核心启动子数据集 45
3.2.2 计算DNA序列的结构特征谱 46
3.2.3 基于模式的最近邻搜索 47
3.2.4 算法性能评价 51
3.3 实验结果与讨论 52
3.3.1 CpG相关和CpG不相关启动子的结构特征谱 52
3.3.2 不同结构特征的比较 54
3.3.3 不同物种的启动子预测性能比较 56
3.3.4 不同算法的启动子预测性能比较 58
3.4 本章小结 60
第4章 基于结构特征的属性选择和启动子预测 62
4.1 研究背景 62
4.1.1 特征选择概述 62
4.1.2 特征选择算法 63
4.2 数据和方法 65
4.2.1 启动子数据集 65
4.2.2 Filter特征选择方法 65
4.2.3 Wrapper特征选择方法 68
4.2.4 特征搜索策略 69
4.2.5 特征选择框架 72
4.3 实验结果与讨论 73
4.3.1 启动子和非启动子结构特征比较 73
4.3.2 基于Filter特征选择的实验结果分析 75
4.3.3 基于Wrapper特征选择的实验结果分析 77
4.3.4 不同算法的启动子预测结果比较 79
4.4 本章小结 80
第5章 基于结构特征的全基因组核小体定位 82
5.1 研究背景 82
5.1.1 核小体结构 83
5.1.2 现有核小体定位方法 85
5.2 数据和方法 87
5.2.1 数据集 87
5.2.2 最小角回归模型 87
5.2.3 基于峰值发现的核小体定位模型 88
5.2.4 随机森林 91
5.3 实验结果与讨论 91
5.3.1 全基因组上结构特征和核小体分布 91
5.3.2 着丝粒区域的结构特征和核小体分布 98
5.3.3 启动子区域的结构特征和核小体分布及其对基因表达的影响 99
5.3.4 基于结构特征的核小体分布预测 101
5.3.5 基于结构特征的核小体定位 103
5.4 本章小结 107
第6章 总结和工作展望 109
6.1 本书工作总结 109
6.2 后续工作展望 111
参考文献 113
后记 123