第0章 引言 1
0.1分子生物学 2
0.2数学,统计和计算机科学 3
第1章 分子生物学一些知识 5
1.1 DNA和蛋白 5
1.1.1双螺旋结构 6
1.2中心定理 7
1.3遗传密码 8
1.4转化RNA和蛋白序列 12
1.5基因不简单 14
1.5.1开始与停止 14
1.5.2基因表达的控制 15
1.5.3割裂基因 15
1.5.4跳跃基因 16
1.6生物化学 16
问题 23
第2章 限制图谱 25
2.1引言 25
2.2图 27
2.3区间图 28
2.4片段大小的度量 32
问题 34
第3章 多重图谱 35
3.1双消化问题 36
3.1.1双消化问题的多重解 37
3.2多重解分类 40
3.2.1反射性 41
3.2.2重叠等价 41
3.2.3重叠尺寸等价 43
3.2.4更多的图论知识 44
3.2.5从一条路到另一条路 45
3.2.6限制图谱及边界块图 47
3.2.7限制图谱的盒变换 49
3.2.8一个例子 51
问题 52
第4章 求解DDP的算法 54
4.1算法和复杂性 54
4.2 DDP是NP完全的 55
4.3解DDP的方法 56
4.3.1整数规划 56
4.3.2划分问题 57
4.3.3 TSP 58
4.4模拟退火法:TSP和DDP 58
4.4.1模拟退火法 58
4.4.2 TSP 62
4.4.3 DDP 63
4.4.4环状图谱 65
4.5用真实数据作图 65
4.5.1使数据符合图 66
4.5.2图谱算法 67
问题 67
第5章 克隆与克隆文库 69
5.1有限的随机克隆数 70
5.2完全消化的文库 71
5.3部分消化的文库 73
5.3.1可克隆基的组分 73
5.3.2采样、方法1 76
5.3.3设计部分消化文库 77
5.3.4 Poisson近似 77
5.3.5获得所有片段 78
5.3.6最大表达度 80
5.4每个微生物中的基因组 81
问题 81
第6章 物理基因组图谱:海洋、岛屿和锚 83
6.1用指纹制作图谱 84
6.1.1海洋和岛屿 84
6.1.2 分小与控制 90
6.1.3两个先驱实验 91
6.1.4啤酒酵母 91
6.1.5大肠杆菌 92
6.1.6计算指纹模式 93
6.2 用锚制作图谱 97
6.2.1海洋、岛和锚 97
6.2.2克隆与锚的对偶性 102
6.3克隆重叠的概述 104
6.4综合 106
问题 109
第7章 序列装配 111
7.1鸟枪测序法 111
7.1.1 SSP是 NP完全的 112
7.1.2贪婪算法的解至多是4倍最优解 113
7.1.3实践中的装配 118
7.1.4 序列精度 119
7.1.5预期的进展 121
7.2用杂交法测序 122
7.2.1其他SBH设计 127
7.3重访鸟枪测序法 129
问题 131
第8章 数据库和快速序列装配 133
8.1 DNA和蛋白序列数据库 134
8.1.1序列数据库文件中条款的描述 134
8.1.2简单序列数据文件 135
8.1.3统计小结 137
8.2序列的树表现 138
8.3序列的切细 139
8.3.1切细表 139
8.3.2用线性时间切细 140
8.3.3切细和链接 141
8.4序列中的重复 141
8.5用切细进行序列比较 142
8.6至多有l个失配的序列比较 146
8.7用统计量进行序列比较 149
问题 150
第9章 动态规划、两个序列比对 151
9.1比对的个数 153
9.2网络中最短和最长路 157
9.3全局距离比对 159
9.3.1插入删除函数 161
9.3.2依赖距离的权重 163
9.4全局相似比对 164
9.5将一个序列吻合另一个序列 166
9.6局部比对和丛 168
9.6.1自身比较 172
9.6.2衔接重复 172
9.7线性空间算法 174
9.8回溯 176
9.9倒位 179
9.10图谱比对 183
9.11参数序列比较 186
9.11.1一维参数集合 188
9.11.2进入二维 190
问题 192
第10章 多重序列比对 195
10.1囊性纤维化基因 195
10.2 r维的动态规划 197
10.2.1减小容积 198
10.3加权平均序列 199
10.3.1比对的比对 202
10.3.2序列的重心 202
10.4轮廓分析 203
10.4.1统计意义 204
10.5通过隐Markov模型比对 205
10.6一致词分析 207
10.6.1词分析 208
10.6.2一致比对 209
10.6.3更复杂的打分 210
问题 210
第11章 序列比对用到的概率和统计 212
11.1全局比对 212
11.1.1给定的比对 213
11.1.2 未知比对 213
11.1.3比对打分的线性增长 214
11.1.4 Azuma-Hoeffding引理 215
11.1.5对平均值的大偏差 216
11.1.6关于二项式分布的大偏差 218
11.2局部比对 220
11.2.1大数定律 220
11.3极值分布 230
11.4 Poisson近似的Chen-Stein方法 232
11.5 Poisson近似和长匹配 234
11.5.1连续正面的投币 234
11.5.2序列间的准确匹配 236
11.5.3近似匹配 241
11.6带有打分的序列比对 245
11.6.1相位转移 246
11.6.2实用的p值 249
问题 251
第12章 有关序列模式的概率与统计 254
12.1中心极限定理 255
12.1.1广义词 261
12.1.2估计概率 261
12.2非重叠模式统计 262
12.2.1一个模式的更新理论 262
12.2.2 Li方法与多重模式 265
12.3 Poisson近似 267
12.4位点分布 270
12.4.1内部位点距离 270
问题 271
第13章 RNA二级结构 273
13.1组合数学 274
13.1.1计算更多的形状 277
13.2最小自由能结构 279
13.2.1减少发卡计算时间 281
13.2.2线性不稳定函数 282
13.2.3多分支环 283
13.3一致折叠 284
问题 286
第14章 树和序列 287
14.1树 287
14.1.1分裂 288
14.1.2树的度量 292
14.2距离 294
14.2.1可加树 294
14.2.2 超度量树 298
14.2.3非可加距离 299
14.3简约算法 301
14.4极大似然树 307
14.4.1连续时间Markov链 307
14.4.2估计变化率 309
14.4.3似然性与树 311
问题 314
第15章 来源与展望 316
15.1分子生物学 316
15.2物理图谱和克隆文库 316
15.3序列装配 317
15.4序列比较 318
15.4.1数据库和快速序列分析 318
15.4.2对两个序列的动态规划方法 319
15.4.3多重序列比对 320
15.5概率和统计 320
15.5.1序列比对 321
15.5.2序列模式 322
15.6 RNA二级结构 322
15.7树和序列 323
参考文献 324
附录 问题解答和提示 335
索引 352