《生物信息学基础》PDF下载

  • 购买积分:12 如何计算积分?
  • 作  者:孙啸,陆祖宏,谢建明编著
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2005
  • ISBN:7302102708
  • 页数:336 页
图书介绍:

第1章 生物信息学引论 1

1.1 引言 1

1.1.1 生物信息学概念 1

1.1.2 生物分子信息 2

1.1.3 生物信息学的研究目标和任务 4

1.1.4 生物信息学的研究意义 6

1.2 生物信息学的发展历史 7

1.3 人类基因组计划和基因组信息学 9

1.3.1 人类基因组计划简介 9

1.3.2 人类基因组计划对生物信息学的挑战 13

1.4 蛋白质结构与功能关系的研究 16

1.5 生物信息学的主要研究内容 18

1.5.1 生物分子数据的收集与管理 18

1.5.2 数据库搜索及序列比较 19

1.5.3 基因组序列分析 20

1.5.4 基因表达数据的分析与处理 21

1.5.5 蛋白质结构预测 21

1.6 生物信息学所用的方法和技术 23

1.6.1 数学统计方法 23

1.6.2 动态规划方法 23

1.6.3 机器学习与模式识别技术 24

1.6.4 数据库技术及数据挖掘 25

1.6.5 人工神经网络技术 26

1.6.6 专家系统 27

1.6.7 分子模型化技术 28

1.6.8 量子力学和分子力学计算 29

1.6.9 生物分子的计算机模拟 29

1.6.10 因特网(Internet)技术 31

1.7 生物信息学目前的发展概况 31

问题与练习 35

参考文献 35

第2章 生物信息学的生物学基础 40

2.1 细胞 40

2.2 蛋白质的结构和功能 42

2.2.1 蛋白质的功能 42

2.2.2 蛋白质的分子组成 43

2.2.3 蛋白质的结构层次 44

2.2.4 蛋白质结构与功能的关系 50

2.3 遗传信息载体——DNA 51

2.3.1 核苷酸 52

2.3.2 DNA的结构 53

2.4 分子生物学中心法则 55

2.4.1 DNA的复制 55

2.4.2 转录 56

2.4.3 翻译 57

2.4.4 mRNA的反转录与cDNA 59

2.4.5 对遗传信息流的再认识 60

2.5 基因组结构 60

2.5.1 染色体结构 60

2.5.2 基因 62

2.5.3 原核生物基因组 63

2.5.4 真核生物基因组 64

2.6 基因表达调控 69

2.6.1 基因表达调控的层次 69

2.6.2 原核基因调控 70

2.6.3 真核基因调控 70

2.7 新生肽链的折叠 71

2.7.1 新生肽链的加工 72

2.7.2 新生肽链的折叠 72

2.7.3 蛋白质折叠的一般规律 72

2.7.4 帮助新生肽链折叠的生物大分子 73

2.7.5 蛋白质构象病问题 74

2.8 生物大分子结构的测定 74

2.8.1 X射线衍射结构分析 74

2.8.2 核磁共振结构分析 76

2.9 分子生物学工具 77

问题与练习 79

参考文献 79

第3章 序列比较 81

3.1 序列的相似性 81

3.1.1 字母表和序列 82

3.1.2 编辑距离 83

3.1.3 通过点矩阵分析两条序列的相似之处 84

3.1.4 序列的两两比对 86

3.1.5 用于序列相似性的打分矩阵 87

3.2 两两比对算法 92

3.2.1 序列两两比对基本算法 93

3.2.2 子序列与完整序列的比对 96

3.2.3 寻找最大的相似子序列 97

3.2.4 准全局序列比对 98

3.2.5 关于连续空位的问题 99

3.2.6 比较相似序列 102

3.2.7 比对的统计学显著性 103

3.3 序列多重比对 104

3.3.1 SP模型 105

3.3.2 多重比对的动态规划算法 107

3.3.3 优化计算方法 110

3.3.4 星形比对 112

3.3.5 树形比对 114

3.3.6 其他多重序列比对算法 115

3.3.7 统计特征分析 115

3.4 DNA片段组装 116

3.4.1 片段组装问题 117

3.4.2 序列片段组装模型 119

3.4.3 序列片段覆盖图 121

3.4.4 贪婪算法 123

3.4.5 非循环图拓扑排序法 124

问题与练习 125

参考文献 126

第4章 生物分子数据库 130

4.1 引言 130

4.2 核酸序列数据库 131

4.2.1 GenBank/EMBL-Bank/DDBJ 131

4.2.2 基因组数据库 136

4.2.3 表达序列标记数据库dbEST 137

4.2.4 序列标记位点数据库dbSTS 138

4.2.5 面向基因聚类数据库UniGene 138

4.3 蛋白质序列数据库 138

4.3.1 PIR 138

4.3.2 SWISS-PROT 140

4.3.3 TrEMBL 141

4.4 生物大分子结构数据库 142

4.4.1 PDB 142

4.4.2 MMDB 142

4.5 其他生物分子数据库 143

4.5.1 单碱基多态性数据库dbSNP 144

4.5.2 蛋白质结构分类数据库SCOP 144

4.5.3 蛋白质二级结构数据库DSSP 145

4.5.4 蛋白质同源序列比对数据库HSSP 146

4.5.5 序列模式数据库PROSITE 147

4.5.6 蛋白质指纹数据库PRINTS 147

4.5.7 人类遗传数据库OMIM 147

4.5.8 基因启动子数据库EPD 148

4.5.9 转录调控区域数据库TRRD 148

4.5.10 转录因子数据库TRANSFAC 149

4.5.11 基因本体数据库GO 149

4.5.12 生物、医学文献数据库PubMed 149

4.5.13 目录数据库DBCat 149

4.6 数据库搜索 150

4.6.1 FastA 151

4.6.2 BLAST 154

4.6.3 VAST 158

4.7 数据库集成 159

4.7.1 Entrez 160

4.7.2 SRS 161

4.7.3 ExPASy 162

问题与练习 162

参考文献 163

第5章 基因组信息分析 168

5.1 关于遗传语言 168

5.1.1 基因组DNA的奥秘 168

5.1.2 探索遗传语言 171

5.1.3 关于生物复杂性 172

5.1.4 基因组学研究带来的希望 172

5.2 原核基因组特点 173

5.2.1 长开放阅读框 173

5.2.2 高基因密度 173

5.2.3 简单的基因结构 173

5.2.4 原核基因组中的GC含量 174

5.3 真核基因组特点 174

5.3.1 基因组规模 174

5.3.2 巨大的非编码序列 174

5.3.3 复杂的基因结构 174

5.3.4 复杂的基因转录调控方式 175

5.3.5 可变剪接 175

5.3.6 CpG岛 176

5.3.7 等值区 176

5.3.8 密码子使用偏性 177

5.4 基因组序列分析 177

5.4.1 基因组序列分析步骤和分析结果评价 177

5.4.2 核苷酸关联分析 179

5.5 基因识别方法 181

5.5.1 最长ORFs法 181

5.5.2 基于密码子出现频率的预测方法 182

5.5.3 同源性方法 184

5.5.4 神经网络方法 185

5.5.5 隐马尔可夫模型法 186

5.5.6 模式判别分析法 198

5.5.7 基于动态规划的基因结构预测方法 199

5.5.8 基于剪切比对的基因识别 202

5.5.9 其他基因识别方法 202

5.6 非编码区域分析和调控元件识别 203

5.6.1 调控元件的建模 204

5.6.2 调控元件模式的得分函数 206

5.6.3 模式驱动的调控元件识别 207

5.6.4 序列驱动的调控元件识别 208

问题与练习 215

参考文献 215

第6章 系统发生分析 219

6.1 分子系统发生与系统发生树 219

6.1.1 分子系统发生分析 219

6.1.2 系统发生树 221

6.1.3 距离和特征 222

6.1.4 分子系统发生分析过程 223

6.2 基于距离的系统发生树构建方法 225

6.2.1 最小二乘法 225

6.2.2 连锁聚类方法及非加权分组平均法 226

6.2.3 距离变换法 229

6.2.4 邻近归并法 230

6.3 基于特征的系统发生树构建方法 232

6.3.1 最大简约法 232

6.3.2 快速搜索策略 235

6.4 最大似然法 236

6.5 系统发生树的可靠性 238

6.5.1 自举检验 238

6.5.2 参数检验 239

6.6 全基因组系统发生分析 239

6.6.1 基于多棵系统发生树的方法 239

6.6.2 基于基因内容的方法 240

6.6.3 基于蛋白质折叠结构的方法 240

6.6.4 基于基因次序的方法 240

6.6.5 基于连接的直向同源蛋白的方法 240

6.6.6 基于代谢途径的方法 241

问题与练习 242

参考文献 243

第7章 蛋白质结构预测 245

7.1 引言 245

7.2 蛋白质二级结构预测 249

7.2.1 利用的信息及预测准确性 249

7.2.2 Chou-Fasman方法 250

7.2.3 GOR方法 252

7.2.4 基于氨基酸疏水性的预测方法 255

7.2.5 最邻近方法 257

7.2.6 人工神经网络方法 258

7.2.7 综合方法 261

7.2.8 氨基酸残基之间的距离 261

7.3 RNA二级结构的预测 262

7.4 蛋白质空间结构预测 263

7.4.1 同源模型化方法 264

7.4.2 线索化方法(折叠识别方法) 266

7.4.3 从头预测方法 267

7.4.4 预测方法评价 272

7.5 蛋白质空间结构比较 273

问题与练习 275

参考文献 276

第8章 基因表达数据分析 282

8.1 基因表达数据的获取 283

8.1.1 cDNA微阵列 283

8.1.2 寡核苷酸芯片 284

8.1.3 基因表达数据的网络资源 285

8.2 基因表达数据预处理 286

8.3 基因表达差异的显著性分析 289

8.3.1 倍数分析 289

8.3.2 t检验 290

8.3.3 贝叶斯分析 291

8.4 基因表达谱聚类分析 292

8.4.1 相似性度量函数 292

8.4.2 聚类方法 294

8.4.3 基于模型的聚类方法 298

8.4.4 支持向量机 299

8.4.5 聚类结果的可视化 301

8.4.6 聚类结果的定量评价 303

8.5 基因表达数据的分类分析 305

8.5.1 朴素贝叶斯分类法 305

8.5.2 k-近邻法 306

8.5.3 其他分类法 306

8.6 主成分分析PCA 307

8.7 基于基因表达谱的基因调控网络研究 309

8.7.1 布尔网络模型 310

8.7.2 线性组合模型 312

8.7.3 加权矩阵模型 312

8.7.4 数据整合分析 313

问题与练习 314

参考文献 314

附录1 常用基本词汇表 320

附录2 生物信息分析工具GCG 333