第1章 绪论 1
1.1 研究背景和意义 1
1.2 研究目的 2
1.3 基本生物知识 3
1.3.1 细胞 3
1.3.2 脱氧核糖核酸(DNA) 3
1.3.3 基因和基因组 4
1.3.4 蛋白质和蛋白质组 5
1.3.5 基因和蛋白质的关系——中心法则 5
1.3.6 基因表达及调控 6
1.4 基因表达数据的聚类分析 6
1.4.1 基因表达数据的获取 6
1.4.2 基因表达数据的类型 7
1.4.3 基因表达数据的特点 8
1.4.4 聚类基因表达数据的应用 9
1.4.5 基因表达数据对聚类技术提出的挑战 10
1.4.6 聚类基因表达数据技术的分类 11
1.5 本书的研究内容和主要贡献 13
1.6 本书的组织结构 15
第2章 相关研究工作 17
2.1 子空间聚类 19
2.1.1 基于距离的子空间聚类 19
2.1.2 基于模式/趋势的子空间聚类 21
2.2 投影聚类 31
2.2.1 基于超立方体的方法 31
2.2.2 基于划分的方法 32
2.2.3 基于层次的投影聚类 33
2.2.4 基于密度的投影聚类 34
2.2.5 基于模型的投影聚类 34
2.3 双聚类 35
2.3.1 基于最小MSR的方法 36
2.3.2 基于格子模型的方法 38
2.3.3 基于频谱的方法 39
2.3.4 基于最大权重子图的方法 40
2.4 本章小结 41
第3章 最大子空间共调控基因聚类 43
3.1 正负共调控基因聚类Co-Cluster 43
3.1.1 国际研究现状 44
3.1.2 基本概念 45
3.1.3 基因相似性 48
3.1.4 Co-Cluster算法 49
3.1.5 实验测试与结果分析 62
3.1.6 结果的生物意义 70
3.2 时间平移正负共调控基因聚类Reg-Cluster 73
3.2.1 国际研究现状 73
3.2.2 基本概念和问题定义 76
3.2.3 Reg-Cluster聚类算法 78
3.2.4 实验测试与结果分析 86
3.3 局部保守最大共调控基因聚类 93
3.3.1 国际研究现状 93
3.3.2 相关概念和问题定义 96
3.3.3 LC-Cluster算法 98
3.3.4 实验测试与结果分析 104
3.4 本章小结 111
第4章 考虑基因间相互关系的投影聚类 112
4.1 研究现状及存在的问题 113
4.2 基本概念和问题定义 116
4.3 投影聚类算法MOLION 120
4.3.1 平凡子序列的削减 122
4.3.2 基本MOLION算法 125
4.3.3 讨论 129
4.4 实验测试与结果分析 131
4.4.1 数据集 131
4.4.2 算法的效率 132
4.4.3 算法的有效性 133
4.5 本章小结 135
第5章 基于迭代重聚类的基因表达数据聚类算法 137
5.1 研究现状及存在的问题 137
5.2 相关工作 139
5.2.1 基因表达矩阵 139
5.2.2 数据预处理 140
5.2.3 数据标准化 141
5.2.4 相似性度量 141
5.3 CRADLE聚类算法 141
5.3.1 基本定义 141
5.3.2 初始聚类 142
5.3.3 迭代的重聚类 143
5.3.4 基于范数的多维数据模糊聚类E-CRADLE 145
5.4 实验测试及分析 146
5.4.1 算法可伸缩性分析 146
5.4.2 聚类结果的可靠性分析 147
5.4.3 数据集聚类结果分析 147
5.5 本章小结 151
第6章 MFCC:一种高效的三维基因表达数据挖掘算法 152
6.1 研究现状及存在的问题 152
6.2 基本概念 153
6.3 MFCC算法 154
6.3.1 二维切片挖掘 156
6.3.2 三维频繁闭项集结果生成 157
6.3.3 算法正确性证明 162
6.4 实验测试与结果分析 165
6.4.1 RSM与CubeMiner进行比较 165
6.4.2 可扩展性 166
6.5 本章小结 169
第7章 结束语 170
7.1 本书工作总结 170
7.2 未来的研究方向 171
作者文献 173
参考文献 189