当前位置:首页 > 生物
理解生物信息学
理解生物信息学

理解生物信息学PDF电子书下载

生物

  • 电子书积分:18 积分如何计算积分?
  • 作 者:(英)M.泽瓦勒贝,J.O.鲍姆著;李亦学,郝沛主译
  • 出 版 社:北京:科学出版社
  • 出版年份:2012
  • ISBN:9787030328328
  • 页数:630 页
图书介绍:本书对生物信息学算法和技术作了全面系统地阐述。全书共分七个部分,首先介绍核酸、蛋白质和数据库基础知识。第2部分引导读者搜寻数据库序列,做序列比对。第3部分叙述生物进化过程并辅导构建系统树。第4部分讲解基因组的特性;第5和第6部分剖析蛋白质二级和三级结构;最后是细胞和生物体部分,对生物的一组基因或蛋白质的数据作分析并以系统生物学学概述圆满结束。
《理解生物信息学》目录

第1部分 基础知识 3

第1章 核酸的世界 3

1.1 DNA和RNA的结构 4

DNA分子是由4种不同类型的碱基组成的线性多聚体 4

两条互补DNA链通过碱基配对形成双螺旋 6

RNA分子通常为单链结构,但在某些情况下可形成碱基配对结构 6

1.2 DNA、 RNA和蛋白质:中心法则 8

DNA是信息载体,而RNA则是信使 9

信使RNA根据遗传密码翻译产生蛋白质 10

翻译过程涉及了含DNA和RNA的核糖体的转移 11

1.3基因结构和基因调控 12

特定的定位序列能和RNA聚合酶结合,并识别转录起始点 13

真核生物中的转录起始信号远比细菌中复杂得多 14

真核生物mRNA转录物在翻译前需经历一系列修饰 15

翻译的调控 16

1.4生命与进化之树 16

主要生命形式的基本特征 17

突变可以改变核苷酸序列 18

总结 19

名词解释 19

扩展阅读 21

第2章 蛋白质结构 22

2.1初级结构和二级结构 23

我们可从多个不同水平考察蛋白质结构 23

氨基酸是蛋白质的组成单位 24

侧链决定了氨基酸化学和物理特性的不同 24

蛋白质链中的氨基酸通过肽键共价连接 26

蛋白质的二级结构由α螺旋、β链构成 28

在蛋白质结构中已发现了几种不同类型的β折叠片 31

螺旋和链通过转角、发夹结构和环连接 31

2.2对生物信息学的启发 32

某些氨基酸倾向于形成特定的结构单元 32

从进化角度帮助序列分析 32

蛋白质结构的计算和可视化 32

2.3蛋白质通过折叠形成紧凑的结构 33

蛋白质的三级结构是通过多肽链的路径来定义的 34

蛋白质折叠的稳定状态是能量最低的状态 35

很多蛋白质是由多个亚基组成的 35

总结 35

名词解释 36

扩展阅读 37

第3章 数据库的处理 38

3.1数据库的结构 39

平面文件数据库以文本文件的方式存储数据 40

关系数据库广泛应用于存储生物信息 41

XML的灵活性可以确定定制的数据分类 42

一些用于生物数据的其他数据库结构 42

数据库可以通过本地访问或通过互联网相互链接 43

3.2数据库类型 43

数据库中不仅仅是数据 44

原始数据和衍生数据 44

我们如何定义和链接事物的重要性:本体 44

3.3数据库搜索 45

序列数据库 46

芯片数据库 46

蛋白质相互作用数据库 50

结构数据库 50

3.4数据质量 51

非冗余性对一些应用特别重要 52

自动化方法可用于检查数据的一致性 52

初步的分析和注释通常是自动化完成的 53

为了产生高质量的注释经常需要人为干预 53

数据库更新和条目注释版本号的重要性 53

总结 54

名词解释 54

扩展阅读 55

第2部分 序列联配 59

第4章 产生和分析序列联配 59

4.1序列联配的原理 60

联配是在两个或更多序列的相同区域寻找最大相似性的任务 60

联配可以揭示序列间的同源性 61

比较蛋白质序列比核酸序列更容易检测同源性 62

4.2联配分值 62

一个联配的质量是通过给予一个量化的分值来衡量的 62

量化两个序列间的相似性的最简单的方法是百分数 62

基于一致度的点图可以可视化地评价相似性 63

真正的匹配不必相同 65

最低一致度比可以被接受为具有显著性 66

对于打分联配有许多不同的方法 66

4.3替代矩阵 66

使用替代矩阵对每个排列后的序列位点分配一个单独的值 66

PAM替代矩阵使用密切相关的蛋白质序列集的替代频率 66

BLOSUM替代矩阵使用了局部高度保守区域序列的突变数据 67

替代矩阵的选择取决于要解决的问题 67

4.4插入空缺 68

在序列插入空缺以达到和另一条序列的相似度最大,需要罚分制度 68

动态规划算法可以决定引入最优空缺 69

4.5联配类型 69

对于不同情况采用不同类型的联配 69

多重序列联配能同时比较一些相似序列 71

有几种不同的技术可构造多重联配 72

多重联配可以提高低相似性序列联配的精确度 72

ClustalW可以对DNA和蛋白质序列进行全局联配 72

通过合并一些局部联配可以构建多重联配 73

增加新信息可以改进联配 74

4.6检索数据库 74

已开发了快速而准确的搜索算法 75

FASTA格式是一个基于较短的相同片段匹配的快速的数据库搜索方法 75

BLAST的基础在于发现非常相似的短片段 75

对不同的问题采用不同版本的BLAST和FASTA 75

PSI-BLAST基于配置文件的数据库搜索 76

SSEARCH是一个严格的联配方法 76

4.7搜索核酸或蛋白质序列 76

可直接使用或翻译后的DNA或RNA序列 76

必须测试数据库的匹配质量,以确保其不可能是偶然发生 77

选择一个适当的E值的阈值有助于限制数据库搜索 77

低复杂度区域可以将同源性搜索复杂化 79

不同的数据库可以用来解决具体问题 79

4.8蛋白质序列模体或模式 81

建立数据库的模式需要专业知识 82

BLOCKS数据库包含自动编译的保守蛋白质序列的多重联配的较短序列模块 82

4.9使用模式和模体搜索 83

可以在PROSITE数据库中搜索蛋白质的模式和模体 83

基于模式的PHI-BLAST程序同时搜索同源性和模体匹配 84

可以使用PRATT从多条序列产生模式 84

PRINTS数据库包括了指纹图谱,描述一个蛋白质家族的一些保守模体 84

Pfam数据库定义了蛋白质家族的表达谱 85

4.10模式和蛋白质功能 85

可以搜索蛋白质上特定的功能位点 85

序列比较不是唯一分析蛋白质序列的途径 85

总结 86

名词解释 87

扩展阅读 88

第5章 序列比对及数据库搜索 90

5.1替换矩阵和打分 91

联配分值用于衡量公共进化祖先的似然性 91

PAM (MDM)替代打分矩阵用于探索蛋白 质进化起源 92

BLOSUM矩阵用于寻找保守的蛋白质区域 94

用于核苷酸联配的打分矩阵需由相似的方式得到 96

替换打分矩阵必须适用于特定的联配问题 97

插入空缺的打分相对替换而言使用了更为启发式的方法 97

5.2动态规划算法 98

使用改进后的Needleman-Wunsch算法构建全局最优联配 99

对动态规划算法的简单改进就能用于局部序列联配 104

不计算完整的矩阵,牺牲精确度提高时间效率 106

5.3索引技术和近似算法 108

后缀树定位和独特及重复序列的位置 108

散列索引是一种技术,列出了所有k的起始位置元组(k- tuples) 109

FASTA算法使用哈希算法和快速链接进行数据库搜索 110

BLAST算法利用了有限状态自动机 111

直接比较核酸序列和蛋白质序列,需要对BLAST和FASTA进行特殊的调整 114

5.4联配分值的显著性 116

有空缺局部联配的统计可以按相似的算法进行 117

5.5联配全基因组序列 118

有效索引和扫描全基因组序列对高等生物序列比对至关重要 118

密切关联的物种基因组之间复杂进化关系需要创新的联配算法 119

总结 120

名词解释 121

扩展阅读 122

第6章 模式、序列和多序列比对 124

6.1序列和序列标记 125

位置特异性分数矩阵是得分矩阵的扩展 125

解决构建PSSM时数据缺失问题的方法 127

PSI-BLAST是一个序列数据库检索程序 130

将序列表现为序列标记 131

6.2谱式隐马尔可夫模型 132

用于序列比对的HMM的基本结构 133

利用联配序列建立HMM参数 137

利用谱式HMM给序列打分:最大可能路径以及所有路径的总和 138

利用未联配序列评估HMM参数 140

6.3序列联配 141

利用联配比较两个PSSM 141

联配谱式HMM 143

6.4 利用序列递增(gradual sequenceaddition)的多序列比对 144

序列添加的顺序是基于评估合并联配错误可能性而决定的 145

许多不同的打分策略用于建立多序列联配 147

多序列联配是利用向导树以及谱式方法构建的,且可能进一步改进 149

6.5其他获得多序列联配的方法 152

多序列联配程序DIALIGN联配无间隙的区段 152

利用遗传算法的SAGA多序列联配方法 153

6.6序列模式发现 154

在多序列联配中查找模式:eMOTIF和AACC 157

序列中共有模式的概率查询:Gibbs和MEME 158

总结 159

名词解释 160

扩展阅读 161

第3部分 进化过程 167

第7章 重现进化历史 167

7.1系统发生树的结构和解释 168

系统发生树重建进化关系 168

用几种方式描述树的拓扑结构 172

一致树和可信树报告拓扑结构的比较结果 174

7.2分子进化及其结果 176

大多数相关序列有许多变异了几次的位置 176

可接受突变速率对所有类型的碱基替换通常是不相同的 178

密码子不同位置有不同的突变速率 179

只应该用直系同源基因构建物种系统发生树 181

基因组大区域变化是常见的 187

7.3系统发生树构建 187

核糖体小亚基rRNA序列非常适用于重建 物种的进化 187

构树方法的选择在某种程度上依赖于数据集的大小和质量 188

在使用这些方法时必需选择一个进化模型 189

所有的系统发生分析必须以精确的多序列比对开始 191

16S RNA序列的一个小数据集的系统发生分析 192

为酶家族建立基因树有助于发现酶功能的进化 194

总结 198

名词解释 199

扩展阅读 200

第8章 构建系统发生树 203

8.1进化模型和进化距离的计算 204

一个简单但不精确衡量进化距离的是p距离 204

Poisson校正距离考虑了同一位点上的多次突变 204

Gamma校正距离考虑了不同的序列位点上突变速率的差异 205

Jukes-Cantor模型再现了核苷酸序列进化的一些基本特征 205

更复杂的模型区分不同类型突变的相对频率 206

在DNA序列上存在核苷酸的偏好 208

蛋白质序列的进化模型和用于序列联配的替代矩阵密切相关 208

8.2产生系统发生树 209

聚类方法基于进化距离产生一个系统发育树 209

UPGMA方法假定一个恒定的分子钟,并产生一个等距树 210

Fiteh-Margoliash方法产生一个无根的加性树 211

邻接法:此方法涉及最小进化的概念 212

通常使用逐步增加和星形分解方法用以产生一棵起始树用于进一步的探索,这不是最终树 214

8.3产生多种树的拓扑结构 216

分枝限界法大大提高了搜索树的拓扑结构的效率 216

可以通过对一个现存树做一系列细小的变化以优化树拓扑结构 217

寻找根给出了系统发生树在时间上的方向 220

8.4评价树的拓扑结构 221

可使用基于进化距离的函数以评价树 221

加权简约法寻找具有突变最少的树 224

使用简约法可以采用不同的方式对突变作加权 226

可以使用最大似然法用以评估树 226

四重奏迷惑(quartet-puzzling)方法在标准执行中也包括了最大似然法 229

贝叶斯方法也可用于重建系统发生树 230

8.5评估树的特征和比较树的可靠性 231

即使是完善的数据和方法也会出现长枝吸引的问题 231

可以检验内部分枝测试树的拓扑结构 231

用于比较两棵或两棵以上的树的检验方法 233

总结 234

名词解释 234

扩展阅读 235

第4部分 基因组特征 239

第9章 揭示基因组特征 239

9.1基因组序列的初步分析 240

将整个基因组序列分割开来简化基因检测 240

结构RNA基因和重复序列在进一步分析中可以排除 241

同源性可以用于原核和真核基因的鉴定 242

9.2原核基因组中的基因预测 242

9.3真核基因组中的基因预测 244

外显子和内含子的预测程序使用了多种方法 244

基因预测必须要保持正确的阅读框 245

有些程序只利用查询序列和外显子模型来预测外显子 249

有些程序只利用查询序列和基因模型来预测外显子 252

可以利用基因模型和序列相似性来预测基因 254

相关物种的基因组可以用来帮助基因预测 255

9.4剪接位点的预测 256

剪接位点可以由专门的程序独立地鉴定 256

9.5启动子区域的预测 256

原核启动子有较好定义的基序 257

真核启动子一般要比原核启动子复杂 257

有许多启动子的在线预测工具 257

启动子预测结果并不十分清晰 258

9.6证实预测结果 258

有多种计算基因预测准确率的方法 259

翻译预测的外显子可以证实预测的准确性 259

构建蛋白质和鉴定同源基因 261

9.7基因组注释 262

基因组注释是基因组分析中的最后一步 262

GO (gene ontology)提供了一套基因注释的标准词汇表 263

9.8大基因组比较 267

总结 267

名词解释 269

扩展阅读 269

第10章 基因检测和基因组注释理论章节 271

10.1利用决策树检测功能RNA分子 273

利用tRNAscan算法检测tRNA基因 273

检测真核生物基因组中的tRNA基因 276

10.2原核生物基因检测中有用的特征 276

10.3原核生物基因检测的算法 279

GeneMark利用了非均匀马尔可夫链(inhomogeneous Markov chains)和双密码子(dicodon)统计 280

GLIMMER利用了编码概率的差值马尔科夫模型 281

ORPHEUS利用了同源性、密码子统计和核糖体结合位点 282

GeneMark.hmm利用精确状态持续隐马尔可夫模型 283

EcoParse是一个HMM基因模型 284

10.4真核生物基因检测中用到的特征 286

真核生物基因与原核生物基因的差异 286

内含子、外显子和剪切位点 287

转录因子的启动子序列和结合位点 289

10.5预测真核生物基因信号 289

检测核心启动子结合信号是很多真核生物基因预测方法的关键元素 289

为了定位核心启动子序列信号而设计的一类模型 290

利用序列一般性质预测启动子区域可以去掉相当数量的假阳性结论 294

预测真核生物转录和翻译起始位点 295

转录和翻译终止信号给出基因完整定义 296

10.6预测外显子和内含子 296

可以利用普遍序列性质(general sequenceproperty)来识别 297

剪切位点预测 298

可以通过序列模式与碱基统计相结合预测剪切位点 298

GenScan将加权矩阵和决策树整合以定位剪切位点 299

GeneSplicer利用一阶马尔可夫链预测剪切位点 300

NetPlantGene整合内含子和外显子的神经网络模型以预测剪切位点 300

其他特征可能也可以用于剪切位点预测 300

利用特定方法识别起始和终止外显子 301

利用数据库中的同源区域可以定义外显子 301

10.7完整真核生物基因模型 301

10.8预测独立基因之余 304

功能注释 304

通过比较相关基因组,可以减少难以确定的预测 306

基因检测方法的评估和再评估 307

总结 307

名词解释 308

扩展阅读 308

第5部分 二级结构 313

第11章 从序列中获得二级结构 313

11.1预测方法的类型 314

基于规则的统计方法使残基形成一个特定二级结构成为可能 315

最近邻法是结合了有关蛋白质结构额外信息的统计方法 315

主要利用神经网络及隐马尔可夫方法进行二级结构预测的机器学习方法 316

11.2训练和测试数据库 317

确定蛋白质二级结构的几种方法 317

11.3预测程序准确性评估 318

Q3衡量个别残基分配的精度 318

二级结构的预测不应该期望达到100%的残基精度 319

Sov值衡量全元素的预测精度 319

CAFASP/CASP:无偏的和随时可用的蛋白质预测评估 321

11.4统计和基于知识的方法 321

GOR方法用作信息论方法 324

Zpred程序包括了同源序列和残基保守信息的多重联配 325

使用多个序列信息提高整体预测精度 328

最近邻法:使用多个非同源序列 328

PREDATOR是一种综合了统计和基于知识的程序,其中包括了最近邻法 328

11.5二级结构预测的神经网络方法 328

评估神经网络预测的可靠性 329

基于网络的神经网络二级结构预测程序的几个例子 330

PROF:蛋白质预测 330

PSIPRED 331

J net:使用序列比对的几种可选描述 332

11.6一些需要特殊预测方法的二级结构 332

跨膜蛋白 334

量化膜环境的属性 334

11.7跨膜蛋白结构的预测 334

多螺旋膜蛋白 335

选择预测跨膜螺旋的预测程序 336

统计方法 339

基于知识的预测 339

蛋白质家族的进化信息改善了预测结果 340

神经网络在跨膜预测中的应用 341

使用隐马尔可夫模型预测跨膜螺旋 341

比较结果:选择哪个 342

如果提交一个非跨膜蛋白给跨膜预测程序会发生什么 344

含β链的跨膜结构的预测 344

11.8卷曲螺旋结构 345

COILS预测程序 346

PAIRCOIL和MULTICOIL是COILS算法的扩展 348

拉上亮氨酸拉链:一个特殊的卷曲螺旋 348

11.9 RNA二级结构预测 349

总结 351

名词解释 352

扩展阅读 353

第12章 二级结构预测 355

12.1定义二级结构和预测精度 356

蛋白质二级结构指定定义不同给出结果也不同 357

对二级结构的预测精度存在着几种不同的测度 360

12.2二级结构预测基于残基的偏好性 363

每个结构状态存在着氨基酸的倾向这可以在指定时作为残基偏好性 363

最简单的预测方法是基于在一个序列窗口中的平均残基偏好性 367

残基偏好性由附近的序列所调控 368

通过从同源序列得到的信息可以大为改善预测 371

12.3近邻方法是基于序列片段的相似性 372

发现相似序列的短片段具有相似的结构 373

使用了几种序列相似性的测度用以寻找近邻片段 374

使用近邻片段结构的加权平均用以预测 376

已发展了近邻方法用于预测那些较易发生错误折叠的区域 377

12.4神经网络已经被成功应用于二级 结构预测 377

分层前馈神经网络可以将序列转变为结构预测 378

包括同源序列信息将改善神经网络的预测正确度 385

更复杂的神经网络已应用于预测二级结构和其他一些结构特点 386

12.5隐马尔可夫模型已应用在结构预测中 389

发现HMM方法对膜蛋白特别有效 389

使用HMM,也可以成功地预测非膜蛋白的二级结构 389

12.6可以预测结构特征的一般数据分类技术 392

支持向量机已成功地用于蛋白质结构预测 392

Discriminates、 SOM和其他一些方法 394

总结 394

名词解释 395

扩展阅读 396

第6部分 蛋白质三级结构 403

第13章 蛋白质结构预测 403

13.1势能函数和力场 405

蛋白质的构象可以在势能面上观察到 405

构象能量可以用简单的数学函数来描述 406

相似的力场可以用来表示平均环境中的构象能量 407

势能函数可以用来评估构建的结构 407

能量最小化可以用来搜索建模结构和确定局部能量最小值 408

分子动力学和模拟退火可以用来搜索全局能量最小值 409

13.2用折叠识别法预测蛋白质结构 409

在没有同源蛋白的情况下预测蛋白质结构折叠 410

非冗余蛋白质折叠数据库在穿线法中的应用 411

穿线法中采用的两种不同的打分机制 411

动态规划方法搜索目标序列与已知折叠匹配的最佳方案 413

评估折叠识别可信度的方法 414

穿线法实例:网柱黏菌中的C2结构域 414

13.3同源建模原理 416

目标序列与模板序列相关性越大,同源建模的结果越好 418

关键序列一致性取决于整个序列的长度 418

针对目前可建模的大批量序列的同源建模已经实现自动化 419

建模所基于的一系列假设 420

13.4同源建模的步骤 421

在PDB数据库中寻找目标蛋白质的同源结构 422

目标和模板蛋白序列的精确比对对于成功建模是必不可少的 422

蛋白质的结构保守区域最先建模 423

进入下一阶段前需检验建模的核心结构是否存在不适之处 423

序列重新比对和重新建模可能会提高建模结构的准确性 423

插入和缺失序列通常建模成环区域 424

不等同氨基酸侧链的建模主要通过旋转异构体数据库来实现 426

采用能量最小化来消除结构错误 427

分子动力学可以用来搜索可移动的loop区域可能采取的构象 427

检查模型的准确性 427

同源建模的可信度 430

13.5自动化同源建模 430

MODELLER通过适当的蛋白质结构约束条件来建模 431

COMPOSER使用基于片段的建模方法来自动化生成相应的模型 431

网络中可用于比较建模的自动化方法 432

结构预测结果的评价 432

13.6 PI3蛋白激酶p110α的同源建模 434

Swiss-Pdb Viewer能够用于手工或者半手工建模 435

同时做序列比对、核心结构建模和侧链建模 435

柔性区域(loop)通过数据库中可能的结 构建模 436

Swiss-Pdb Viewer软件可以实现能量最小化和质量评估 436

MolIDE是一个可下载的半自动的建模软件包 437

基于网络的自动化建模(以p1 10α激酶为例) 437

构建一个功能上相似但是序列不相似的蛋白 质:mTOR 439

从序列生成一个多结构域三维结构 440

总结 440

名词解释 440

扩展阅读 441

第14章 结构-功能关系分析 444

14.1功能保守性 445

发挥功能的区域通常结构上是保守的 445

相似的生物学功能存在于具有不同折叠模式的蛋白质上 448

折叠数据库确定了结构上相似的蛋白质而无论其功能 448

14.2结构比较方法 450

找到蛋白质的结构域可以帮助结构比较 450

结构比较能够揭示序列比较不能辨别的保守功能 451

CE方法通过匹配蛋白质片段把两个蛋白质叠合到一起 451

向量叠合搜索工具(vector alignment searchtool,VAST)能够叠合二级结构 452

DALI确定蛋白质结构的叠合方式,但是并不保持片段之间的相对顺序 453

FATCAT在刚性的片段之间引入了旋转 454

14.3找到结合位点 455

高度保守的、带电荷的或者疏水的表面是相互作用位点的标志 458

通过表面性质寻找蛋白质-蛋白质的相互作用位点 459

通过计算蛋白质的表面,可以找到那些可能是结合位点的裂缝和洞 459

通过分析氨基酸的保守性可以确定结合位点 462

14.4分子对接方法和程序 462

当同源蛋白和类似的小分子复合物的结构已知的时候,可以作简单的分子对接 464

一些专用的分子对接程序可以自动地把配体对接到蛋白质结构上去 464

通过打分函数来确定最可能的对接结果 465

DOCK软件采用半刚性的方法,通过分析配体和结合位点形状和化学性质的互补来做对接 465

片段对接方法可以通过预测结合位点处的原子类型和功能基团确定可能的底物 465

GOLD是一个柔性的对接程序,它使用遗传算法 466

结合位点的水分子也应该考虑 466

总结 467

名词解释 467

扩展阅读 467

第7部分 细胞和组织 471

第15章 蛋白质谱和基因表达分析 471

15.1大规模基因表达分析 472

大量不同基因的表达可同时被DNA芯片检测 472

基因表达芯片主要用于检测基因在不同条件下的表达差异 473

基因表达系列分析也被用于研究基因表达的总体模式 474

数字差异显示:应用生物信息学和统计学来检测不同组织中基因的差异表达 475

推动不同地方和不同实验的数据整合 475

分析基因表达微阵列数据的最简单方法是层次聚类分析 476

基于自组织映射网络的技术可被用于分析微阵列数据 478

自组织树算法(SOTA)自上而下地对类别进行连续分割 478

基因表达数据的聚类结果是进一步研究的工具 480

15.2大规模蛋白质表达分析 480

二维凝胶电泳是分离细胞内各种蛋白质的一种方法 480

检测二维凝胶中显示的表达水平 483

二维凝胶能发现不同样本间的蛋白质表达差异 484

用聚类方法识别具有相似表达模式的蛋白质位点 484

主成分分析(PCA)是分析微阵列和二维凝胶数据除聚类分析之外的又一选择 487

跟踪一组蛋白质位点在一系列样本间的差异 487

数据库和在线工具可用来辅助二维凝胶数据的解释 488

蛋白质微阵列芯片能同时检测大量不同蛋白质的存在或活性 488

可用质谱来鉴定已经由二维凝胶或其他技 术分离和纯化的蛋白质 489

对质谱进行蛋白质鉴定的程序可从网上免费获得 490

质谱能用于检测蛋白质浓度 491

总结 491

名词解释 491

扩展阅读 492

第16章 聚类方法和统计学概念 493

16.1分析表达数据之前的准备工作 494

数据标准化用于去除实验中的系统误差 494

表达水平通常用比值表示并取对数转换后再分析 495

有时在数据转换后再进行标准化不无裨益 497

主成分分析用于合并被分析对象的某些属性 497

16.2聚类分析的先决条件是定义所有数据点之间的距离 500

欧氏距离在日常生活中广泛使用 500

Pearson相关系数表征的距离能衡量表达响应的形状相似性 501

Mahalanobis距离综合考虑表达响应之间的变异性和相关性 501

16.3聚类方法能鉴定出内部相似且彼此间不同的表达模式 502

层次聚类对数据生成一组彼此关联的备选划分方案 504

k均值聚类将数据分成预先指定数目的类群,但不能确定类群间彼此的远近关系 507

自组织图(SOM)采用神经网络算法将数据聚类成预先指定数目的类群 509

进化聚类算法用选择、重组和突变等概念来搜索问题的可能最优解 512

自组织树算法(SOTA)确定所需要的聚类数目 513

双向聚类可鉴定出在部分样本中呈现相似表达模式的一组基因 514

聚类类群的合理性可由其他方法独立验证 515

16.4统计分析可量化观测到的差异表达的显著性水平 516

t检验能用于估计两个表达水平之间差异的显著性 518

非参数检验用于规避对数据采样方式做假定 519

对差异表达的多重假设检验需要采取特殊的技术来控制错误率 520

16.5基因和蛋白质表达数据能用于样本分类 522

有许多可选手段能用于样本分类 523

支持向量机是另一种能生成分类器的有监督学习算法 524

总结 524

名词解释 525

扩展阅读 527

第17章 系统生物学 529

17.1什么是系统 530

系统大于部分之和 530

生物学系统是有生命的网络 533

数据库是网络构建的有效起点 533

构建模型需要比网络更加丰富的信息 534

构建模型的三种可行的方法 536

动力学模型并非系统生物学研究的唯一途径 539

17.2模型的结构 539

控制环路是生物学系统的必要组成部分 540

网络中的相互作用可以被表述为简单的微分方程 540

17.3生物学系统的鲁棒性 543

鲁棒性是生物体复杂性的一个独特属性 543

模块性在鲁棒性中扮演重要角色 544

系统中的冗余性能够提供鲁棒性 546

生命系统可以通过双稳态开关实现从一个 547

状态到另一个状态的转换 547

17.4存储和运行系统模型 547

特定的程序使得系统模拟更加便捷 548

标准化的系统描述有助于存储和再利用 548

总结 549

名词解释 551

扩展阅读 551

附录A 553

概率论、熵和信息 553

互斥事件 553

发生两个事件 553

两个随机变量的发生 553

贝叶斯分析 554

贝叶斯定理 554

参数值的推导 554

扩展阅读 555

附录B分子能量函数 556

用力场计算分子内部和分子间相互作用的能量 556

成键项 557

非成键项 558

势能在穿线法中的使用 559

平均力的势能 560

与溶剂效应相关的势能项 560

扩展阅读 561

附录C功能优化 562

全搜索 方法 562

动态规划和分支界限法 563

局部最优 563

下降单纯形法 563

最速下降法 564

共轭梯度法 564

使用二阶导数的方法 565

热力学模拟和全局优化 565

蒙特卡罗和遗传算法 566

分子动力学 568

模拟退火 568

总结 568

扩展阅读 569

字符表 570

索引 582

返回顶部