第一章 DNA测序和基因组时代 1
1.1 发现DNA和它的遗传载体功能 1
1.2 DNA的测序技术 2
1.3 人类基因组计划 3
1.4 新一代测序技术 5
第二章 粗粒化和视像化 7
2.1 粗粒化与符号描述 7
2.2 香农信息论第三定理 8
2.3 视像化 12
2.4 DNA序列形象表示的早期工作 12
2.4.1 DNA的混沌游戏表示 12
2.4.2 一维和二维DNA行走 13
2.4.3 DNA序列的Z曲线表示 14
第三章 细菌基因组中的短串分布 17
3.1 细菌基因组中短串分布的直方图 18
3.2 冗余缺失串和真正的缺失串 19
3.3 基因组序列的随机化 20
3.4 基因组随机化后的短串分布直方图 21
3.5 基因组序列的概率模型 23
3.6 几种离散的概率分布 25
3.6.1 伯努利分布 27
3.6.2 二项式分布 28
3.6.3 泊松分布 28
3.6.4 几何分布 29
3.6.5 Lander-Waterman曲线 30
3.7 基因组随机化以后短串分布的期望值曲线 33
第四章 细菌基因组中的缺失字串 37
4.1 阿凡提算法 37
4.2 短核苷酸分布组成的细菌“肖像” 38
4.3 K框架中的一些线条 42
4.4 分形和分维 48
4.5 “肖像”背后的分形和分维 49
4.6 素数个位数分布的非随机性 56
4.7 细菌“肖像”与DNA的混沌游戏表示 57
4.8 细菌基因组中缺失短串可能的生物学意义 58
第五章 G-J集团方法 61
5.1 Goulden-Jackson集团方法 61
5.2 集团的权重函数:产水菌 65
5.3 集团的权重函数:大肠杆菌 67
5.4 集团的权重函数:闪烁古生球菌 68
5.5 马尔可夫链 69
5.6 嵌入马尔可夫链 72
第六章 可因式化语言的应用 77
6.1 统计语言学和代数语言学 77
6.2 形式语言概要 78
6.3 乔姆斯基系统 79
6.4 林登梅耶系统 80
6.5 可因式化语言 82
6.6 冗余缺失串数目的形式语言解 83
第七章 在基因组中寻找基因 89
7.1 cDNA和训练数据集 89
7.2 真核生物的基因结构 91
7.2.1 “点”信号 91
7.2.2 “片段”信号 92
7.3 “点”信号的统计描述 93
7.4 “片段”信号的马尔可夫链模型 94
7.5 “点”信号和“片段”信号的组合 96
7.6 隐马尔可夫模型 98
7.7 动态规划方法 99
7.8 找基因程序的局限和缺点 102
第八章 从细菌基因组到亲缘关系 105
8.1 细菌的亲缘关系与分类 105
8.2 达尔文演化理论和“生命之树” 108
8.3 基于16S rRNA序列的细菌演化和分类研究 111
8.4 基于细菌基因组的组分矢量方法 112
8.4.1 CVTree方法 113
8.4.2 减除手续 114
8.4.3 关联“距离”和构树 116
8.4.4 减除手续突出物种特异性 117
8.5 距离和超度规 118
8.6 亲缘树正确性的检验 119
8.7 肽段长度K的意义和选择 121
8.8 CVTree方法的两大应用 123
8.8.1 细菌的大范围分类 123
8.8.2 亚种以下菌株的高分辨力 124
第九章 符号序列重构的唯一性 127
9.1 序列重构数与图论中欧拉圈数的关系 127
9.2 序列重构唯一性的形式语言解 133
9.2.1 唯一重构序列与可因式化语言 133
9.2.2 识别唯一重构序列的有限状态自动机 134
9.3 具有巨大重构数目的蛋白质 139
附录:本书提到的几个程序 141
1 绘制细菌“肖像”的SeeDNA程序 141
2 二维DNA行走程序DNAWalk 141
3 寻找水稻基因的BGF程序 142
4 从基因组数据构建亲缘关系的CVTree程序 142
5 欧拉圈计数程序ModifiedBEST 143
6 判断重构唯一性的有限状态自动机 143
参考文献 145