第1部分 基础知识 3
第1章 核酸的世界 3
1.1 DNA和RNA的结构 4
DNA分子是由4种不同类型的碱基组成的线性多聚体 4
两条互补DNA链通过碱基配对形成双螺旋 6
RNA分子通常为单链结构,但在某些情况下可形成碱基配对结构 6
1.2 DNA、 RNA和蛋白质:中心法则 8
DNA是信息载体,而RNA则是信使 9
信使RNA根据遗传密码翻译产生蛋白质 10
翻译过程涉及了含DNA和RNA的核糖体的转移 11
1.3基因结构和基因调控 12
特定的定位序列能和RNA聚合酶结合,并识别转录起始点 13
真核生物中的转录起始信号远比细菌中复杂得多 14
真核生物mRNA转录物在翻译前需经历一系列修饰 15
翻译的调控 16
1.4生命与进化之树 16
主要生命形式的基本特征 17
突变可以改变核苷酸序列 18
总结 19
名词解释 19
扩展阅读 21
第2章 蛋白质结构 22
2.1初级结构和二级结构 23
我们可从多个不同水平考察蛋白质结构 23
氨基酸是蛋白质的组成单位 24
侧链决定了氨基酸化学和物理特性的不同 24
蛋白质链中的氨基酸通过肽键共价连接 26
蛋白质的二级结构由α螺旋、β链构成 28
在蛋白质结构中已发现了几种不同类型的β折叠片 31
螺旋和链通过转角、发夹结构和环连接 31
2.2对生物信息学的启发 32
某些氨基酸倾向于形成特定的结构单元 32
从进化角度帮助序列分析 32
蛋白质结构的计算和可视化 32
2.3蛋白质通过折叠形成紧凑的结构 33
蛋白质的三级结构是通过多肽链的路径来定义的 34
蛋白质折叠的稳定状态是能量最低的状态 35
很多蛋白质是由多个亚基组成的 35
总结 35
名词解释 36
扩展阅读 37
第3章 数据库的处理 38
3.1数据库的结构 39
平面文件数据库以文本文件的方式存储数据 40
关系数据库广泛应用于存储生物信息 41
XML的灵活性可以确定定制的数据分类 42
一些用于生物数据的其他数据库结构 42
数据库可以通过本地访问或通过互联网相互链接 43
3.2数据库类型 43
数据库中不仅仅是数据 44
原始数据和衍生数据 44
我们如何定义和链接事物的重要性:本体 44
3.3数据库搜索 45
序列数据库 46
芯片数据库 46
蛋白质相互作用数据库 50
结构数据库 50
3.4数据质量 51
非冗余性对一些应用特别重要 52
自动化方法可用于检查数据的一致性 52
初步的分析和注释通常是自动化完成的 53
为了产生高质量的注释经常需要人为干预 53
数据库更新和条目注释版本号的重要性 53
总结 54
名词解释 54
扩展阅读 55
第2部分 序列联配 59
第4章 产生和分析序列联配 59
4.1序列联配的原理 60
联配是在两个或更多序列的相同区域寻找最大相似性的任务 60
联配可以揭示序列间的同源性 61
比较蛋白质序列比核酸序列更容易检测同源性 62
4.2联配分值 62
一个联配的质量是通过给予一个量化的分值来衡量的 62
量化两个序列间的相似性的最简单的方法是百分数 62
基于一致度的点图可以可视化地评价相似性 63
真正的匹配不必相同 65
最低一致度比可以被接受为具有显著性 66
对于打分联配有许多不同的方法 66
4.3替代矩阵 66
使用替代矩阵对每个排列后的序列位点分配一个单独的值 66
PAM替代矩阵使用密切相关的蛋白质序列集的替代频率 66
BLOSUM替代矩阵使用了局部高度保守区域序列的突变数据 67
替代矩阵的选择取决于要解决的问题 67
4.4插入空缺 68
在序列插入空缺以达到和另一条序列的相似度最大,需要罚分制度 68
动态规划算法可以决定引入最优空缺 69
4.5联配类型 69
对于不同情况采用不同类型的联配 69
多重序列联配能同时比较一些相似序列 71
有几种不同的技术可构造多重联配 72
多重联配可以提高低相似性序列联配的精确度 72
ClustalW可以对DNA和蛋白质序列进行全局联配 72
通过合并一些局部联配可以构建多重联配 73
增加新信息可以改进联配 74
4.6检索数据库 74
已开发了快速而准确的搜索算法 75
FASTA格式是一个基于较短的相同片段匹配的快速的数据库搜索方法 75
BLAST的基础在于发现非常相似的短片段 75
对不同的问题采用不同版本的BLAST和FASTA 75
PSI-BLAST基于配置文件的数据库搜索 76
SSEARCH是一个严格的联配方法 76
4.7搜索核酸或蛋白质序列 76
可直接使用或翻译后的DNA或RNA序列 76
必须测试数据库的匹配质量,以确保其不可能是偶然发生 77
选择一个适当的E值的阈值有助于限制数据库搜索 77
低复杂度区域可以将同源性搜索复杂化 79
不同的数据库可以用来解决具体问题 79
4.8蛋白质序列模体或模式 81
建立数据库的模式需要专业知识 82
BLOCKS数据库包含自动编译的保守蛋白质序列的多重联配的较短序列模块 82
4.9使用模式和模体搜索 83
可以在PROSITE数据库中搜索蛋白质的模式和模体 83
基于模式的PHI-BLAST程序同时搜索同源性和模体匹配 84
可以使用PRATT从多条序列产生模式 84
PRINTS数据库包括了指纹图谱,描述一个蛋白质家族的一些保守模体 84
Pfam数据库定义了蛋白质家族的表达谱 85
4.10模式和蛋白质功能 85
可以搜索蛋白质上特定的功能位点 85
序列比较不是唯一分析蛋白质序列的途径 85
总结 86
名词解释 87
扩展阅读 88
第5章 序列比对及数据库搜索 90
5.1替换矩阵和打分 91
联配分值用于衡量公共进化祖先的似然性 91
PAM (MDM)替代打分矩阵用于探索蛋白 质进化起源 92
BLOSUM矩阵用于寻找保守的蛋白质区域 94
用于核苷酸联配的打分矩阵需由相似的方式得到 96
替换打分矩阵必须适用于特定的联配问题 97
插入空缺的打分相对替换而言使用了更为启发式的方法 97
5.2动态规划算法 98
使用改进后的Needleman-Wunsch算法构建全局最优联配 99
对动态规划算法的简单改进就能用于局部序列联配 104
不计算完整的矩阵,牺牲精确度提高时间效率 106
5.3索引技术和近似算法 108
后缀树定位和独特及重复序列的位置 108
散列索引是一种技术,列出了所有k的起始位置元组(k- tuples) 109
FASTA算法使用哈希算法和快速链接进行数据库搜索 110
BLAST算法利用了有限状态自动机 111
直接比较核酸序列和蛋白质序列,需要对BLAST和FASTA进行特殊的调整 114
5.4联配分值的显著性 116
有空缺局部联配的统计可以按相似的算法进行 117
5.5联配全基因组序列 118
有效索引和扫描全基因组序列对高等生物序列比对至关重要 118
密切关联的物种基因组之间复杂进化关系需要创新的联配算法 119
总结 120
名词解释 121
扩展阅读 122
第6章 模式、序列和多序列比对 124
6.1序列和序列标记 125
位置特异性分数矩阵是得分矩阵的扩展 125
解决构建PSSM时数据缺失问题的方法 127
PSI-BLAST是一个序列数据库检索程序 130
将序列表现为序列标记 131
6.2谱式隐马尔可夫模型 132
用于序列比对的HMM的基本结构 133
利用联配序列建立HMM参数 137
利用谱式HMM给序列打分:最大可能路径以及所有路径的总和 138
利用未联配序列评估HMM参数 140
6.3序列联配 141
利用联配比较两个PSSM 141
联配谱式HMM 143
6.4 利用序列递增(gradual sequenceaddition)的多序列比对 144
序列添加的顺序是基于评估合并联配错误可能性而决定的 145
许多不同的打分策略用于建立多序列联配 147
多序列联配是利用向导树以及谱式方法构建的,且可能进一步改进 149
6.5其他获得多序列联配的方法 152
多序列联配程序DIALIGN联配无间隙的区段 152
利用遗传算法的SAGA多序列联配方法 153
6.6序列模式发现 154
在多序列联配中查找模式:eMOTIF和AACC 157
序列中共有模式的概率查询:Gibbs和MEME 158
总结 159
名词解释 160
扩展阅读 161
第3部分 进化过程 167
第7章 重现进化历史 167
7.1系统发生树的结构和解释 168
系统发生树重建进化关系 168
用几种方式描述树的拓扑结构 172
一致树和可信树报告拓扑结构的比较结果 174
7.2分子进化及其结果 176
大多数相关序列有许多变异了几次的位置 176
可接受突变速率对所有类型的碱基替换通常是不相同的 178
密码子不同位置有不同的突变速率 179
只应该用直系同源基因构建物种系统发生树 181
基因组大区域变化是常见的 187
7.3系统发生树构建 187
核糖体小亚基rRNA序列非常适用于重建 物种的进化 187
构树方法的选择在某种程度上依赖于数据集的大小和质量 188
在使用这些方法时必需选择一个进化模型 189
所有的系统发生分析必须以精确的多序列比对开始 191
16S RNA序列的一个小数据集的系统发生分析 192
为酶家族建立基因树有助于发现酶功能的进化 194
总结 198
名词解释 199
扩展阅读 200
第8章 构建系统发生树 203
8.1进化模型和进化距离的计算 204
一个简单但不精确衡量进化距离的是p距离 204
Poisson校正距离考虑了同一位点上的多次突变 204
Gamma校正距离考虑了不同的序列位点上突变速率的差异 205
Jukes-Cantor模型再现了核苷酸序列进化的一些基本特征 205
更复杂的模型区分不同类型突变的相对频率 206
在DNA序列上存在核苷酸的偏好 208
蛋白质序列的进化模型和用于序列联配的替代矩阵密切相关 208
8.2产生系统发生树 209
聚类方法基于进化距离产生一个系统发育树 209
UPGMA方法假定一个恒定的分子钟,并产生一个等距树 210
Fiteh-Margoliash方法产生一个无根的加性树 211
邻接法:此方法涉及最小进化的概念 212
通常使用逐步增加和星形分解方法用以产生一棵起始树用于进一步的探索,这不是最终树 214
8.3产生多种树的拓扑结构 216
分枝限界法大大提高了搜索树的拓扑结构的效率 216
可以通过对一个现存树做一系列细小的变化以优化树拓扑结构 217
寻找根给出了系统发生树在时间上的方向 220
8.4评价树的拓扑结构 221
可使用基于进化距离的函数以评价树 221
加权简约法寻找具有突变最少的树 224
使用简约法可以采用不同的方式对突变作加权 226
可以使用最大似然法用以评估树 226
四重奏迷惑(quartet-puzzling)方法在标准执行中也包括了最大似然法 229
贝叶斯方法也可用于重建系统发生树 230
8.5评估树的特征和比较树的可靠性 231
即使是完善的数据和方法也会出现长枝吸引的问题 231
可以检验内部分枝测试树的拓扑结构 231
用于比较两棵或两棵以上的树的检验方法 233
总结 234
名词解释 234
扩展阅读 235
第4部分 基因组特征 239
第9章 揭示基因组特征 239
9.1基因组序列的初步分析 240
将整个基因组序列分割开来简化基因检测 240
结构RNA基因和重复序列在进一步分析中可以排除 241
同源性可以用于原核和真核基因的鉴定 242
9.2原核基因组中的基因预测 242
9.3真核基因组中的基因预测 244
外显子和内含子的预测程序使用了多种方法 244
基因预测必须要保持正确的阅读框 245
有些程序只利用查询序列和外显子模型来预测外显子 249
有些程序只利用查询序列和基因模型来预测外显子 252
可以利用基因模型和序列相似性来预测基因 254
相关物种的基因组可以用来帮助基因预测 255
9.4剪接位点的预测 256
剪接位点可以由专门的程序独立地鉴定 256
9.5启动子区域的预测 256
原核启动子有较好定义的基序 257
真核启动子一般要比原核启动子复杂 257
有许多启动子的在线预测工具 257
启动子预测结果并不十分清晰 258
9.6证实预测结果 258
有多种计算基因预测准确率的方法 259
翻译预测的外显子可以证实预测的准确性 259
构建蛋白质和鉴定同源基因 261
9.7基因组注释 262
基因组注释是基因组分析中的最后一步 262
GO (gene ontology)提供了一套基因注释的标准词汇表 263
9.8大基因组比较 267
总结 267
名词解释 269
扩展阅读 269
第10章 基因检测和基因组注释理论章节 271
10.1利用决策树检测功能RNA分子 273
利用tRNAscan算法检测tRNA基因 273
检测真核生物基因组中的tRNA基因 276
10.2原核生物基因检测中有用的特征 276
10.3原核生物基因检测的算法 279
GeneMark利用了非均匀马尔可夫链(inhomogeneous Markov chains)和双密码子(dicodon)统计 280
GLIMMER利用了编码概率的差值马尔科夫模型 281
ORPHEUS利用了同源性、密码子统计和核糖体结合位点 282
GeneMark.hmm利用精确状态持续隐马尔可夫模型 283
EcoParse是一个HMM基因模型 284
10.4真核生物基因检测中用到的特征 286
真核生物基因与原核生物基因的差异 286
内含子、外显子和剪切位点 287
转录因子的启动子序列和结合位点 289
10.5预测真核生物基因信号 289
检测核心启动子结合信号是很多真核生物基因预测方法的关键元素 289
为了定位核心启动子序列信号而设计的一类模型 290
利用序列一般性质预测启动子区域可以去掉相当数量的假阳性结论 294
预测真核生物转录和翻译起始位点 295
转录和翻译终止信号给出基因完整定义 296
10.6预测外显子和内含子 296
可以利用普遍序列性质(general sequenceproperty)来识别 297
剪切位点预测 298
可以通过序列模式与碱基统计相结合预测剪切位点 298
GenScan将加权矩阵和决策树整合以定位剪切位点 299
GeneSplicer利用一阶马尔可夫链预测剪切位点 300
NetPlantGene整合内含子和外显子的神经网络模型以预测剪切位点 300
其他特征可能也可以用于剪切位点预测 300
利用特定方法识别起始和终止外显子 301
利用数据库中的同源区域可以定义外显子 301
10.7完整真核生物基因模型 301
10.8预测独立基因之余 304
功能注释 304
通过比较相关基因组,可以减少难以确定的预测 306
基因检测方法的评估和再评估 307
总结 307
名词解释 308
扩展阅读 308
第5部分 二级结构 313
第11章 从序列中获得二级结构 313
11.1预测方法的类型 314
基于规则的统计方法使残基形成一个特定二级结构成为可能 315
最近邻法是结合了有关蛋白质结构额外信息的统计方法 315
主要利用神经网络及隐马尔可夫方法进行二级结构预测的机器学习方法 316
11.2训练和测试数据库 317
确定蛋白质二级结构的几种方法 317
11.3预测程序准确性评估 318
Q3衡量个别残基分配的精度 318
二级结构的预测不应该期望达到100%的残基精度 319
Sov值衡量全元素的预测精度 319
CAFASP/CASP:无偏的和随时可用的蛋白质预测评估 321
11.4统计和基于知识的方法 321
GOR方法用作信息论方法 324
Zpred程序包括了同源序列和残基保守信息的多重联配 325
使用多个序列信息提高整体预测精度 328
最近邻法:使用多个非同源序列 328
PREDATOR是一种综合了统计和基于知识的程序,其中包括了最近邻法 328
11.5二级结构预测的神经网络方法 328
评估神经网络预测的可靠性 329
基于网络的神经网络二级结构预测程序的几个例子 330
PROF:蛋白质预测 330
PSIPRED 331
J net:使用序列比对的几种可选描述 332
11.6一些需要特殊预测方法的二级结构 332
跨膜蛋白 334
量化膜环境的属性 334
11.7跨膜蛋白结构的预测 334
多螺旋膜蛋白 335
选择预测跨膜螺旋的预测程序 336
统计方法 339
基于知识的预测 339
蛋白质家族的进化信息改善了预测结果 340
神经网络在跨膜预测中的应用 341
使用隐马尔可夫模型预测跨膜螺旋 341
比较结果:选择哪个 342
如果提交一个非跨膜蛋白给跨膜预测程序会发生什么 344
含β链的跨膜结构的预测 344
11.8卷曲螺旋结构 345
COILS预测程序 346
PAIRCOIL和MULTICOIL是COILS算法的扩展 348
拉上亮氨酸拉链:一个特殊的卷曲螺旋 348
11.9 RNA二级结构预测 349
总结 351
名词解释 352
扩展阅读 353
第12章 二级结构预测 355
12.1定义二级结构和预测精度 356
蛋白质二级结构指定定义不同给出结果也不同 357
对二级结构的预测精度存在着几种不同的测度 360
12.2二级结构预测基于残基的偏好性 363
每个结构状态存在着氨基酸的倾向这可以在指定时作为残基偏好性 363
最简单的预测方法是基于在一个序列窗口中的平均残基偏好性 367
残基偏好性由附近的序列所调控 368
通过从同源序列得到的信息可以大为改善预测 371
12.3近邻方法是基于序列片段的相似性 372
发现相似序列的短片段具有相似的结构 373
使用了几种序列相似性的测度用以寻找近邻片段 374
使用近邻片段结构的加权平均用以预测 376
已发展了近邻方法用于预测那些较易发生错误折叠的区域 377
12.4神经网络已经被成功应用于二级 结构预测 377
分层前馈神经网络可以将序列转变为结构预测 378
包括同源序列信息将改善神经网络的预测正确度 385
更复杂的神经网络已应用于预测二级结构和其他一些结构特点 386
12.5隐马尔可夫模型已应用在结构预测中 389
发现HMM方法对膜蛋白特别有效 389
使用HMM,也可以成功地预测非膜蛋白的二级结构 389
12.6可以预测结构特征的一般数据分类技术 392
支持向量机已成功地用于蛋白质结构预测 392
Discriminates、 SOM和其他一些方法 394
总结 394
名词解释 395
扩展阅读 396
第6部分 蛋白质三级结构 403
第13章 蛋白质结构预测 403
13.1势能函数和力场 405
蛋白质的构象可以在势能面上观察到 405
构象能量可以用简单的数学函数来描述 406
相似的力场可以用来表示平均环境中的构象能量 407
势能函数可以用来评估构建的结构 407
能量最小化可以用来搜索建模结构和确定局部能量最小值 408
分子动力学和模拟退火可以用来搜索全局能量最小值 409
13.2用折叠识别法预测蛋白质结构 409
在没有同源蛋白的情况下预测蛋白质结构折叠 410
非冗余蛋白质折叠数据库在穿线法中的应用 411
穿线法中采用的两种不同的打分机制 411
动态规划方法搜索目标序列与已知折叠匹配的最佳方案 413
评估折叠识别可信度的方法 414
穿线法实例:网柱黏菌中的C2结构域 414
13.3同源建模原理 416
目标序列与模板序列相关性越大,同源建模的结果越好 418
关键序列一致性取决于整个序列的长度 418
针对目前可建模的大批量序列的同源建模已经实现自动化 419
建模所基于的一系列假设 420
13.4同源建模的步骤 421
在PDB数据库中寻找目标蛋白质的同源结构 422
目标和模板蛋白序列的精确比对对于成功建模是必不可少的 422
蛋白质的结构保守区域最先建模 423
进入下一阶段前需检验建模的核心结构是否存在不适之处 423
序列重新比对和重新建模可能会提高建模结构的准确性 423
插入和缺失序列通常建模成环区域 424
不等同氨基酸侧链的建模主要通过旋转异构体数据库来实现 426
采用能量最小化来消除结构错误 427
分子动力学可以用来搜索可移动的loop区域可能采取的构象 427
检查模型的准确性 427
同源建模的可信度 430
13.5自动化同源建模 430
MODELLER通过适当的蛋白质结构约束条件来建模 431
COMPOSER使用基于片段的建模方法来自动化生成相应的模型 431
网络中可用于比较建模的自动化方法 432
结构预测结果的评价 432
13.6 PI3蛋白激酶p110α的同源建模 434
Swiss-Pdb Viewer能够用于手工或者半手工建模 435
同时做序列比对、核心结构建模和侧链建模 435
柔性区域(loop)通过数据库中可能的结 构建模 436
Swiss-Pdb Viewer软件可以实现能量最小化和质量评估 436
MolIDE是一个可下载的半自动的建模软件包 437
基于网络的自动化建模(以p1 10α激酶为例) 437
构建一个功能上相似但是序列不相似的蛋白 质:mTOR 439
从序列生成一个多结构域三维结构 440
总结 440
名词解释 440
扩展阅读 441
第14章 结构-功能关系分析 444
14.1功能保守性 445
发挥功能的区域通常结构上是保守的 445
相似的生物学功能存在于具有不同折叠模式的蛋白质上 448
折叠数据库确定了结构上相似的蛋白质而无论其功能 448
14.2结构比较方法 450
找到蛋白质的结构域可以帮助结构比较 450
结构比较能够揭示序列比较不能辨别的保守功能 451
CE方法通过匹配蛋白质片段把两个蛋白质叠合到一起 451
向量叠合搜索工具(vector alignment searchtool,VAST)能够叠合二级结构 452
DALI确定蛋白质结构的叠合方式,但是并不保持片段之间的相对顺序 453
FATCAT在刚性的片段之间引入了旋转 454
14.3找到结合位点 455
高度保守的、带电荷的或者疏水的表面是相互作用位点的标志 458
通过表面性质寻找蛋白质-蛋白质的相互作用位点 459
通过计算蛋白质的表面,可以找到那些可能是结合位点的裂缝和洞 459
通过分析氨基酸的保守性可以确定结合位点 462
14.4分子对接方法和程序 462
当同源蛋白和类似的小分子复合物的结构已知的时候,可以作简单的分子对接 464
一些专用的分子对接程序可以自动地把配体对接到蛋白质结构上去 464
通过打分函数来确定最可能的对接结果 465
DOCK软件采用半刚性的方法,通过分析配体和结合位点形状和化学性质的互补来做对接 465
片段对接方法可以通过预测结合位点处的原子类型和功能基团确定可能的底物 465
GOLD是一个柔性的对接程序,它使用遗传算法 466
结合位点的水分子也应该考虑 466
总结 467
名词解释 467
扩展阅读 467
第7部分 细胞和组织 471
第15章 蛋白质谱和基因表达分析 471
15.1大规模基因表达分析 472
大量不同基因的表达可同时被DNA芯片检测 472
基因表达芯片主要用于检测基因在不同条件下的表达差异 473
基因表达系列分析也被用于研究基因表达的总体模式 474
数字差异显示:应用生物信息学和统计学来检测不同组织中基因的差异表达 475
推动不同地方和不同实验的数据整合 475
分析基因表达微阵列数据的最简单方法是层次聚类分析 476
基于自组织映射网络的技术可被用于分析微阵列数据 478
自组织树算法(SOTA)自上而下地对类别进行连续分割 478
基因表达数据的聚类结果是进一步研究的工具 480
15.2大规模蛋白质表达分析 480
二维凝胶电泳是分离细胞内各种蛋白质的一种方法 480
检测二维凝胶中显示的表达水平 483
二维凝胶能发现不同样本间的蛋白质表达差异 484
用聚类方法识别具有相似表达模式的蛋白质位点 484
主成分分析(PCA)是分析微阵列和二维凝胶数据除聚类分析之外的又一选择 487
跟踪一组蛋白质位点在一系列样本间的差异 487
数据库和在线工具可用来辅助二维凝胶数据的解释 488
蛋白质微阵列芯片能同时检测大量不同蛋白质的存在或活性 488
可用质谱来鉴定已经由二维凝胶或其他技 术分离和纯化的蛋白质 489
对质谱进行蛋白质鉴定的程序可从网上免费获得 490
质谱能用于检测蛋白质浓度 491
总结 491
名词解释 491
扩展阅读 492
第16章 聚类方法和统计学概念 493
16.1分析表达数据之前的准备工作 494
数据标准化用于去除实验中的系统误差 494
表达水平通常用比值表示并取对数转换后再分析 495
有时在数据转换后再进行标准化不无裨益 497
主成分分析用于合并被分析对象的某些属性 497
16.2聚类分析的先决条件是定义所有数据点之间的距离 500
欧氏距离在日常生活中广泛使用 500
Pearson相关系数表征的距离能衡量表达响应的形状相似性 501
Mahalanobis距离综合考虑表达响应之间的变异性和相关性 501
16.3聚类方法能鉴定出内部相似且彼此间不同的表达模式 502
层次聚类对数据生成一组彼此关联的备选划分方案 504
k均值聚类将数据分成预先指定数目的类群,但不能确定类群间彼此的远近关系 507
自组织图(SOM)采用神经网络算法将数据聚类成预先指定数目的类群 509
进化聚类算法用选择、重组和突变等概念来搜索问题的可能最优解 512
自组织树算法(SOTA)确定所需要的聚类数目 513
双向聚类可鉴定出在部分样本中呈现相似表达模式的一组基因 514
聚类类群的合理性可由其他方法独立验证 515
16.4统计分析可量化观测到的差异表达的显著性水平 516
t检验能用于估计两个表达水平之间差异的显著性 518
非参数检验用于规避对数据采样方式做假定 519
对差异表达的多重假设检验需要采取特殊的技术来控制错误率 520
16.5基因和蛋白质表达数据能用于样本分类 522
有许多可选手段能用于样本分类 523
支持向量机是另一种能生成分类器的有监督学习算法 524
总结 524
名词解释 525
扩展阅读 527
第17章 系统生物学 529
17.1什么是系统 530
系统大于部分之和 530
生物学系统是有生命的网络 533
数据库是网络构建的有效起点 533
构建模型需要比网络更加丰富的信息 534
构建模型的三种可行的方法 536
动力学模型并非系统生物学研究的唯一途径 539
17.2模型的结构 539
控制环路是生物学系统的必要组成部分 540
网络中的相互作用可以被表述为简单的微分方程 540
17.3生物学系统的鲁棒性 543
鲁棒性是生物体复杂性的一个独特属性 543
模块性在鲁棒性中扮演重要角色 544
系统中的冗余性能够提供鲁棒性 546
生命系统可以通过双稳态开关实现从一个 547
状态到另一个状态的转换 547
17.4存储和运行系统模型 547
特定的程序使得系统模拟更加便捷 548
标准化的系统描述有助于存储和再利用 548
总结 549
名词解释 551
扩展阅读 551
附录A 553
概率论、熵和信息 553
互斥事件 553
发生两个事件 553
两个随机变量的发生 553
贝叶斯分析 554
贝叶斯定理 554
参数值的推导 554
扩展阅读 555
附录B分子能量函数 556
用力场计算分子内部和分子间相互作用的能量 556
成键项 557
非成键项 558
势能在穿线法中的使用 559
平均力的势能 560
与溶剂效应相关的势能项 560
扩展阅读 561
附录C功能优化 562
全搜索 方法 562
动态规划和分支界限法 563
局部最优 563
下降单纯形法 563
最速下降法 564
共轭梯度法 564
使用二阶导数的方法 565
热力学模拟和全局优化 565
蒙特卡罗和遗传算法 566
分子动力学 568
模拟退火 568
总结 568
扩展阅读 569
字符表 570
索引 582