绪论 1
第一节 生物信息学的兴起 1
第二节 生物信息学的内涵及其在生命科学中的应用 2
一、生物信息学的内涵 3
二、生物信息学在现代生物医学中的应用 4
第三节 大数据时代的生物信息学与医学 5
一、人类基因组计划 5
二、组学与生物信息学 6
三、大数据时代的生物信息学与医学 8
第一篇 生物信息学基础 14
第一章 生物序列资源 14
第一节 引言 14
第二节 NCBI数据库与数据资源 15
一、NCBI序列数据库概述 15
二、NCBI中的重要子库介绍 16
第三节 UCSC基因组浏览器与数据资源 20
一、UCSC概述 20
二、UCSC基因组浏览器 21
三、UCSC中的数据资源和常用工具 23
第四节 EMBL-EBI数据库与数据资源 25
一、EMBL-EBI数据库概况 25
二、EMBL基因组和核酸序列资源 26
三、UniProt蛋白质数据资源 29
四、Biomart数据检索平台 31
第五节 重要的非编码基因数据库 33
一、ENCODE数据库与数据资源 33
二、microRNA数据资源miRBase 34
小结 35
Summary 36
第二章 序列比对 37
第一节 引言 37
一、同源、相似与距离 37
二、相似与距离的定量描述 38
三、算法实现的比对 40
四、序列比对的作用 42
第二节 比对算法概要 42
一、替换计分矩阵 42
二、双序列全局比对 46
三、双序列局部比对 48
四、多序列全局比对 48
五、多序列局部比对 52
六、比对的统计显著性 53
第三节 数据库搜索 54
一、经典BLAST 54
二、衍生BLAST 56
三、BLAT 57
四、RNA序列搜索 58
五、数据库搜索的统计显著性 59
第四节 比对软件、参数与数据资源 60
一、参数选择的一般原则 60
二、主要比对软件 61
三、EBI中的序列比对工具 62
四、UCSC中的BLAT比对工具 62
第五节 比对技术的发展 63
一、glocal比对 63
二、全基因组比对 64
小结 66
第三章 序列特征分析 69
第一节 引言 69
第二节 DNA序列特征分析 70
一、DNA序列的基本信息 70
二、DNA序列的特征信息 72
三、基因组结构注释分析 73
第三节 蛋白质序列特征分析 76
一、蛋白质序列的基本信息分析 76
二、蛋白质序列的特征信息分析 79
三、蛋白质序列的功能信息分析 82
第四节 RNA序列与结构特征分析 85
一、RNA的序列特征 85
二、RNA的结构特征 85
三、RNA二级结构预测方法 86
四、RNA结构预测的在线资源与软件 90
第五节 表达序列特征分析 91
一、表达序列的获取和数据库资源 92
二、表达序列标签分析方法 97
三、GEO数据处理与分析 100
四、SAGE数据分析 101
小结 102
第四章 分子进化分析 105
第一节 引言 105
第二节 系统发生分析与重建 105
一、核苷酸置换模型及氨基酸置换模型 105
二、系统发生树的基本概念及搜索方法 110
三、分子钟假说 113
第三节 核苷酸和蛋白质的适应性进化 113
一、中性与近中性理论 113
二、微观适应性进化的检验方法 114
三、宏观适应性进化的检验方法 115
四、适应性进化基因 118
第四节 分子进化与生物信息学 118
一、基因组进化概述 118
二、病毒基因组进化 119
三、原核生物基因组比较 120
四、蛋白质互作网络进化 121
五、代谢网络进化分析 123
六、肿瘤细胞微进化 125
第五节 应用实例——慢性淋巴细胞白血病突变进化研究 127
小结 129
第五章 基因表达数据分析 132
第一节 引言 132
一、概述 132
二、基因表达测定原理 132
三、基因表达测定的应用 135
第二节 基因表达测定平台与数据库 136
一、基因表达测定平台介绍 136
二、Microarray技术与RNA-seq技术的比较 137
三、基因表达数据库 137
第三节 数据预处理与差异表达分析 138
一、基因芯片数据预处理 138
二、差异表达分析基本原理与方法 146
三、差异表达分析应用 149
第四节 聚类分析与分类分析 153
一、聚类分析中的距离(相似性)尺度函数 154
二、聚类分析中的聚类算法 156
三、分类分析 161
四、分类模型的分类效能评价 165
第五节 基因表达谱数据分析软件 166
一、基因表达谱数据分析软件简介 166
二、R语言和BioConductor 166
三、差异表达分析软件 167
四、聚类分析软件介绍(Cluster和TreeView) 168
五、Matlab生物信息学工具箱 170
小结 171
第二篇 功能基因组信息学 176
第六章 蛋白质组与蛋白质结构分析 176
第一节 引言 176
第二节 蛋白质组数据的获取与分析 177
一、二维凝胶电泳分析技术 177
二、蛋白质组质谱分析技术 177
三、蛋白质芯片分析技术 179
四、酵母双杂交系统 180
五、Rosetta Stone方法 182
六、蛋白质组学分析软件与数据库 182
第三节 蛋白质结构的预测 190
一、蛋白质结构预测概述 190
二、蛋白质二级结构预测方法及软件 190
三、蛋白质三维结构预测方法及软件 193
四、对结构预测结果的评价 195
第四节 蛋白质结构数据库 195
一、蛋白质三维结构数据库 195
二、蛋白质结构分类数据库 197
三、其他常用蛋白质结构数据库 199
第五节 蛋白质功能分析 200
一、蛋白质功能分析概述 200
二、蛋白质功能预测方法 201
三、蛋白质结构与功能关系数据库 203
第六节 蛋白质结构异常与疾病 205
一、蛋白质序列变化引发疾病 205
二、蛋白质折叠错误引发疾病 206
三、蛋白质相互作用的变化引发疾病 207
小结 208
第七章 基因注释与功能分类 211
第一节 引言 211
第二节 基因注释数据库 211
一、Gene Ontology数据库 211
二、KEGG通路数据库 216
第三节 基因集功能富集分析 222
一、富集分析算法 222
二、常用富集分析软件 223
三、富集分析应用实例 224
第四节 基因功能预测 226
一、基因功能预测算法 226
二、常用基因功能预测软件 230
小结 233
第八章 转录调控的信息学分析 235
第一节 引言 235
第二节 转录因子结合位点的信息学预测方法 236
一、转录因子结合位点的表示方法 236
二、转录因子结合位点的定位 237
三、转录因子结合位点的识别 242
第三节 转录调控相关数据库 250
一、TRANSFAC数据库 250
二、JASPAR数据库 252
三、TRED数据库 254
四、其他转录调控相关数据库 256
小结 256
第九章 生物分子网络与通路 259
第一节 引言 259
第二节 生物分子网络和通路概述 259
一、生物分子网络与通路的基本概念 259
二、转录调控网络 261
三、转录后调控网络 261
四、蛋白质互作网络 261
五、信号转导通路和代谢通路 262
六、其他类型的生物网络 263
七、生物分子网络和通路数据资源 263
第三节 生物分子网络分析 264
一、网络的拓扑属性 264
二、无标度网络 267
三、生物分子网络的模块性 269
四、网络模序 269
五、生物分子网络的动态性 271
六、生物分子网络分析软件 272
第四节 生物分子网络的重构和应用 275
一、生物分子网络重构的一般方法 275
二、基因表达相关网络的重构和应用 276
三、转录调控网络的重构和应用 277
四、蛋白质互作网络的重构和应用 280
第五节 生物通路的重构和应用 281
一、代谢网络重构和应用 281
二、信号转导网络的重构和应用 282
三、子通路的重构和应用 282
小结 283
第十章 计算表观遗传学 286
第一节 引言 286
第二节 基因组的DNA甲基化 286
一、CpG岛DNA甲基化调控基因表达 286
二、基因组CpG岛识别方法 289
三、实验检测技术测定DNA甲基化状态 292
四、异常DNA甲基化特征识别 297
第三节 组蛋白修饰的表观基因组 298
一、组蛋白密码是重要表观遗传标记之一 298
二、组蛋白修饰的高通量测定及分析技术 300
三、组蛋白修饰与其他表观遗传修饰的协同调控 303
四、组蛋白修饰异常与人类疾病 304
第四节 基因组印记 305
一、基因组印记是表观遗传现象 305
二、基于生物信息学方法识别新印记基因 306
三、印记基因的表观遗传异常与人类疾病 308
第五节 表观遗传学数据库及软件 309
一、表观遗传学常用数据库 309
二、表观遗传学常用软件 314
小结 318
第三篇 生物信息学与人类复杂疾病 322
第十一章 复杂疾病的分子特征与计算分析 322
第一节 引言 322
第二节 复杂疾病的分子特征与数据资源 322
一、复杂疾病的分子特征 322
二、人类孟德尔遗传疾病数据库(OMIM) 324
三、基因型和表型数据库(dbGAP) 325
四、人类疾病相关多态数据资源 326
第三节 复杂疾病的遗传易感与遗传定位分析 329
一、遗传标志物的筛选识别技术 329
二、遗传定位研究中的实验设计与统计分析方法 331
三、全基因组关联研究 336
四、罕见变异位点的分析方法 338
第四节 常用的集成软件工具 339
一、Haploview软件与单体型分析 339
二、统计遗传学集成分析软件Plink 342
三、SNPtest与Meta分析 344
四、Merlin与数量性状分析 346
小结 348
第十二章 非编码RNA与复杂疾病 351
第一节 引言 351
第二节 非编码RNA与其靶基因 351
一、miRNA概述 351
二、基于序列的miRNA靶基因预测方法 353
三、基于表达信息预测miRNA靶基因 355
四、基于高通量测序结果预测miRNA靶基因 356
五、整合已有知识预测miRNA靶基因 357
六、lncRNA概述及靶基因识别 359
七、ncRNA数据资源 360
第三节 非编码RNA多态和复杂疾病 362
一、位于miRNA基因内部影响miRNA生物学形成的多态 362
二、miRNA靶点的多态 363
三、miRNA多态影响药物反应 365
四、miRNA多态改变表观遗传调控 366
五、lncRNA多态与复杂疾病 366
六、非编码RNA多态数据资源 367
第四节 非编码RNA表达谱与复杂疾病 367
一、ncRNA表达谱识别癌症相关ncRNA 367
二、ncRNA表达谱分类人类癌症 369
三、ncRNA表达谱与mRNA表达谱的整合分析 373
第五节 复杂疾病非编码RNA的计算识别 374
一、概述 374
二、复杂疾病相关miRNA的计算识别 375
三、复杂疾病相关lncRNA的计算识别 377
四、复杂疾病相关非编码RNA数据资源 378
小结 379
第十三章 新一代测序技术与复杂疾病 382
第一节 引言 382
第二节 新一代测序技术概述 382
一、新一代测序技术基本概念 382
二、新一代测序技术常见测序仪及工作流程 383
三、新一代测序数据存储、处理与分析 388
四、新一代测序短片段比对 390
第三节 DNA测序技术及应用 392
一、全基因组测序与外显子组测序 392
二、DNA测序数据分析方法 392
三、DNA测序应用 400
四、DNA测序技术应用于复杂疾病案例 402
第四节 RNA测序技术与数据分析 402
一、RNA测序技术流程 402
二、RNA-seq数据分析 403
三、RNA-seq的应用 406
四、RNA-seq技术应用于复杂疾病案例 413
第五节 ChIP-seq技术与应用 415
一、ChIP-seq技术原理 415
二、ChIP-seq数据的处理方法 416
三、ChIP-seq技术应用 418
四、ChIP-seq技术应用于复杂疾病分析 420
第六节 新一代测序技术在其他领域应用 424
一、Methylation-seq技术原理及数据分析 424
二、CLIP-seq技术原理及数据分析 425
三、Ribosome-seq技术 429
小结 429
第十四章 药物生物信息学 432
第一节 引言 432
第二节 药物靶标的信息学识别 432
一、药物靶标概述 432
二、药物靶标数据资源 433
三、药物靶标识别的信息学技术 435
四、药物靶标的结构预测和分子模拟技术 437
第三节 药物基因组学及其临床研究策略 444
一、药物基因组学的概念和研究目的 444
二、药物基因组生物标志物的发现与验证 444
三、药物基因组与新药开发 447
第四节 药物基因组相关生物信息资源 448
一、药物基因组数据库 448
二、生物芯片与药物基因组学研究 451
第五节 基于药物基因组的个体化药物治疗 452
一、肿瘤靶向药物的个体化治疗 452
二、基于药物基因组的药物不良反应预测 455
三、基于药物基因组的用药剂量预测 456
小结 457
第十五章 生物信息学相关学科进展 460
第一节 引言 460
第二节 生物信息学与转化医学 460
一、转化医学概述 460
二、生物信息学与转化医学的关系 463
三、转化医学信息学研究的基本内容和关键技术 465
四、转化医学信息学案例分析 466
第三节 生物信息学与医学信息学 467
一、生物信息学与临床医学信息学关系 467
二、临床医学信息学概述 468
三、医学信息的标准化技术 469
四、电子病历与医学信息系统集成 473
五、临床数据中心与数据挖掘 475
第四节 生物信息学技术的新进展 477
一、医疗健康大数据 477
二、移动医疗与远程医疗 479
三、健康物联网与可穿戴智能技术 482
四、个体化医疗 484
小结 485
中英文名词对照索引 488
英中文名词对照索引 494
致谢 500