第0章 绪论 1
0.1 生物信息学的发展历史 1
0.1.1 Bioinformatics的来源 1
0.1.2 生物信息学的定义 1
0.1.3 人类基因组计划 1
0.1.4 生物信息学发展重要人物及大事 2
0.2 生物信息学的研究内容 4
0.2.1 生物分子数据的收集与管理 4
0.2.2 数据库搜索及序列比较 5
0.2.3 基因组序列分析 5
0.2.4 基因表达数据的分析与处理 5
0.2.5 蛋白质结构预测 6
0.2.6 非编码RNA研究 6
0.2.7 表观遗传学研究 7
0.3 生物信息学的生物学基础知识 7
0.3.1 遗传定律 7
0.3.2 DNA分子结构 8
0.3.3 基因结构 8
0.3.4 中心法则 9
0.3.5 密码子表 9
0.3.6 蛋白质结构与功能 9
0.3.7 PCR技术 9
参考文献 10
Windows篇 12
第1章 文献信息检索 12
1.1 文献资源的分类 12
1.1.1 根据出版形式进行分类 12
1.1.2 综合分类法 13
1.1.3 标识码及编号 14
1.2 文献的格式 15
1.3 文献检索 17
1.3.1 文献检索词的来源 17
1.3.2 搜索数据库选择 18
1.3.3 检索式构建 19
1.3.4 检索结果的处理 21
1.3.5 CNKI数据库查询举例 21
1.3.6 Elsevier数据库检索举例 25
1.4 文献信息的价值判断及阅读 27
1.4.1 文献的价值判断 27
1.4.2 文献有效阅读 29
1.5 科技查新 29
习题 31
参考文献 31
第2章 生物信息数据资源 32
2.1 核酸序列数据库 32
2.1.1 GenBank数据库及其分类 33
2.1.2 Entrez Nucleotide数据库及其分类 34
2.1.3 NCBI其他数据库 34
2.1.4 GenBank数据格式 35
2.1.5 GenBank数据访问方式 35
2.1.6 基因数据库记录格式及搜索 38
2.2 蛋白质序列数据库 39
2.2.1 UniProt数据库介绍 39
2.2.2 Uniprot数据获得方式 41
2.2.3 UniProt数据库记录格式 42
2.3 蛋白质结构数据库 43
2.3.1 PDB数据库发展历史 43
2.3.2 RCSB PDB数据库介绍 44
2.3.3 RCSB PDB数据库搜索 45
2.3.4 RCSB PDB数据记录 46
2.4 物种基因组数据库 47
2.4.1 小鼠基因组数据库 47
2.4.2 拟南芥基因组数据库 49
2.5 代谢通路数据库 52
2.5.1 在KEGG数据库搜索 53
2.5.2 主页快速链接 54
2.5.3 KEGG通路图及其元素意义 55
2.6 基因组浏览器 57
2.6.1 基因组数据展示内容 58
2.6.2 BLAT搜索 61
2.7 非编码RNA数据库 62
2.7.1 miRNA数据库 62
2.7.2 NONCODE数据库 63
习题 66
参考文献 66
第3章 序列比对 68
3.1 比对程序介绍 68
3.2 比对序列相似性的统计特性 69
3.3 在线BLAST序列比对 72
3.4 本地运行BLAST 75
3.4.1 BLAST程序的下载和安装 75
3.4.2 搜索数据库的索引格式化 75
3.4.3 运行BLAST程序,搜索本地序列数据库 76
3.5 多序列比对 77
3.5.1 ClustalX的使用 77
习题 80
参考文献 80
第4章 核酸序列分析 81
4.1 基因阅读框的识别 81
4.2 基因其他结构区预测 82
4.2.1 CpG岛的预测 82
4.2.2 转录终止信号预测 84
4.2.3 启动子区域的预测 84
4.2.4 密码子偏好性计算 86
4.3 引物设计 88
4.3.1 引物设计的基本原则 88
4.3.2 Primer 5引物设计 88
4.3.3 利用Primer 5进行酶切位点分析 91
4.4 核酸序列的其他转换 92
习题 93
参考文献 93
第5章 蛋白质序列分析 94
5.1 蛋白质理化性质和一级结构分析 94
5.1.1 蛋白质理化性质分析 94
5.1.2 蛋白质理化性质分布图 95
5.1.3 蛋白质信号肽预测 97
5.2 蛋白质二级结构分析 99
5.2.1 蛋白质跨膜结构区分析 99
5.2.2 蛋白质卷曲螺旋分析 101
5.2.3 蛋白质二级结构预测分析 103
5.3 蛋白质三维结构预测分析 104
习题 105
参考文献 105
第6章 基因表达分析 106
6.1 qPCR数据分析 106
6.1.1 绝对定量分析方法 107
6.1.2 相对定量方法分析 108
6.2 基因芯片数据分析 111
6.2.1 从GEO上下载基因芯片表达谱数据 111
6.2.2 将表达谱数据导入MATLAB软件 112
6.2.3 对soft格式文件的标准化 113
6.2.4 差异表达基因筛选 114
习题 114
参考文献 115
第7章 进化分析 116
7.1 进化理论介绍 116
7.1.1 种群是生物进化的基本单位 116
7.1.2 可遗传的变异是生物进化的原始材料 116
7.1.3 分子进化中性学说 117
7.2 进化分析(以MEGA为例) 117
7.2.1 序列准备 118
7.2.2 序列比对 119
7.2.3 建树计算 119
7.2.4 进化树的调整 121
习题 121
参考文献 122
第8章 非编码miRNA分析 123
8.1 miRNA简介 123
8.1.1 miRNA的生物合成 123
8.1.2 miRNA调控基因表达的机理 124
8.1.3 miRNA的生理调节作用 125
8.2 miRNA靶基因预测 125
8.2.1 miRNA靶基因的预测原理 125
8.2.2 miRNA靶基因的预测软件 126
8.2.3 miRNA靶基因的预测步骤 127
8.3 调控靶基因的miRNA预测 130
8.4 miRBase数据库的使用 131
8.4.1 miRBase数据库的搜索 131
8.4.2 miRBase数据库批量下载 132
8.4.3 miRNA记录信息 133
习题 134
参考文献 134
Linux篇 138
第9章 Linux系统 138
9.1 Linux简介 138
9.1.1 什么是Linux系统 138
9.1.2 为什么要学习Linux系统 139
9.1.3 如何学习Linux系统 140
9.2 Linux系统安装 140
9.2.1 Linux系统下载 140
9.2.2 系统安装盘制作 142
9.2.3 CentOS 6.5 操作系统安装 144
9.2.4 更新yum源 154
9.3 Linux命令行模式——终端 155
9.4 Linux系统开关机 156
9.5 Linux系统文件 157
9.5.1 Linux文件夹及其主要作用(以CentOS 6.5 为例) 157
9.5.2 Linux的文件信息的意义 158
9.5.3 Linux命令帮助文件 159
9.6 几个重要的快捷键 161
9.7 Linux系统的命令 161
9.7.1 Linux系统命令的输入格式 161
9.7.2 常用命令及其常用选项介绍 161
9.7.3 数据流重定向 167
9.7.4 管道命令 168
9.7.5 vim编辑器工具 168
9.7.6 其他命令 170
习题 177
参考文献 177
第10章 Perl语言 178
10.1 Perl版本 178
10.2 Perl标量数据 179
10.2.1 Perl运算符 180
10.2.2 标量变量 180
10.2.3 数字及字符串的比较运算符 181
10.3 列表与数组 182
10.3.1 数组及其赋值操作 182
10.3.2 数组元素的引用 182
10.3.3 数组相关的几个命令 183
10.4 哈希 183
10.4.1 哈希赋值 184
10.4.2 哈希的相关函数 184
10.5 判断式及循环控制结构 185
10.5.1 if条件判断式 185
10.5.2 while循环结构 185
10.5.3 until循环结构 186
10.5.4 foreach循环结构 186
10.5.5 each控制结构 186
10.6 正则表达式 187
10.6.1 正则表达式相关符号 187
10.6.2 捕获变量 188
10.6.3 正则表达式中特殊字符的意义 188
10.7 Perl的排序 189
10.7.1 sort命令 189
10.7.2 sort与比较运算符及默认函数的连用 189
10.8 Perl默认的函数的总结 189
10.9 程序精解 190
10.9.1 实例一:从fasta文件中寻找特定的序列 190
10.9.2 实例二:文本内容分类统计功能 193
10.9.3 实例三:统计文件内容是否有重复 195
10.9.4 实例四:Scaffolds序列的排序 196
习题 196
参考文献 197
第11章 测序方法及数据处理 198
11.1 测序技术的发展 198
11.1.1 第一代测序方法 198
11.1.2 二代测序方法 201
11.1.3 测序文库插入片段大小选择 205
11.1.4 测序类型 205
11.1.5 测序方法的搭配 206
11.1.6 测序质量值 206
11.2 测序数据处理 207
11.3 测序数据质量分析 208
11.3.1 用FastQC软件对测序数据进行评估 208
11.3.2 NGSQCToolKit对测序Reads的处理 213
11.3.3 FASTX Toolkit对测序Reads的处理 216
11.4 深度测序数据上传SRA数据库 218
11.4.1 材料准备 220
11.4.2 注册项目信息 221
11.4.3 提供技术信息 224
11.4.4 上传数据 227
11.4.5 数据传输完毕状态 230
习题 231
参考文献 231
第12章 基因组组装 232
12.1 Velvet拼装软件 233
12.1.1 Velvet软件安装 234
12.1.2 Velvet参数介绍 234
12.1.3 Velvet命令运行 237
12.1.4 Velvet运行结果解读 237
12.2 SOAPdenovo软件拼装 238
12.2.1 软件的安装 239
12.2.2 参数介绍 239
12.2.3 SOAPdenovo命令运行 241
12.2.4 SOAPdenovo运行结果解读 242
12.3 ABySS软件拼装 242
12.3.1 ABySS的安装 242
12.3.2 ABySS主要参数介绍 243
12.3.3 ABySS命令运行 245
12.3.4 ABySS运行命令结果解读 245
12.4 ALLPATH-LG软件拼装 245
12.4.1 ALLPATH-LG的安装 246
12.4.2 ALLPATH-LG的主要参数 246
12.4.3 ALLPATH-LG测试数据运行过程解读 249
12.4.4 运行结果解读 252
12.5 Gaps修补 252
12.5.1 GapFiller软件安装 252
12.5.2 相关参数介绍 253
12.5.3 程序运行命令 254
12.5.4 运行结果解读 254
12.6 基因组组装效果评估 254
习题 254
参考文献 255
第13章 小RNA测序数据分析 256
13.1 小RNA测序简介 256
13.2 小RNA测序数据质控 257
13.3 miRNA的识别 259
习题 263
参考文献 263
第14章 RNA-seq数据分析 264
14.1 转录组序列比对 265
14.1.1 数据准备 265
14.1.2 比对数据库 265
14.1.3 TopHat软件下载及安装 266
14.1.4 Bowtie软件和SAMtools软件下载及安装 266
14.1.5 常用TopHat参数介绍 266
14.1.6 基因组数据库序列索引 267
14.1.7 TopHat使用实例 267
14.1.8 输出文件说明 267
14.2 转录本组的组装 268
14.2.1 cufflinks的安装 268
14.2.2 cufflinks的参数 269
14.2.3 cufflinks的输出结果 269
14.3 合并转录组 269
14.3.1 用cuffmerge合并转录本的命令 270
14.4 基因表达差异分析 270
14.4.1 用cuffquant计算表达谱 270
14.4.2 用cuffdiff计算不同样本表达谱的差异 271
14.5 差异表达结果的热图表示 272
习题 273
参考文献 273
第15章 基因预测 275
15.1 GeneMark软件序列 275
15.1.1 GeneMarkS的安装 275
15.1.2 相关参数介绍 276
15.1.3 GeneMarkS命令运行 279
15.1.4 GeneMarkS运行结果解释 280
15.2 Glimmer软件 280
15.2.1 Glimmer软件安装 280
15.2.2 相关命令参数介绍 281
15.2.3 程序运行 284
15.2.4 结果解读 286
15.3 AUGUSTUS 286
15.3.1 AUGUSTUS软件安装 286
15.3.2 相关参数介绍 286
15.3.3 训练AUGUSTUS 287
15.4 PASA 291
15.4.1 PASA软件安装 291
15.4.2 相关命令参数介绍 293
15.4.3 命令运行 294
15.4.4 运行结果解读 296
15.5 EVM(EVidenceModeler) 296
15.5.1 EVM软件下载安装 296
15.5.2 相关参数介绍 297
15.5.3 EVM软件的运行 298
习题 300
参考文献 300
第16章 基因注释及功能分析 302
16.1 BLAST软件介绍 302
16.1.1 BLAST软件安装 302
16.1.2 相关命令参数介绍 303
16.2 NR注释 308
16.2.1 NR数据库制备过程 308
16.2.2 NR注释过程 309
16.3 COG注释 310
16.3.1 COG数据库准备过程 310
16.3.2 COG命令注释过程 311
16.4 Swiss-Prot注释 311
16.4.1 数据库准备 312
16.4.2 Swiss-Prot注释过程 312
16.4.3 InterPro注释 312
16.5 KEGG注释 314
16.6 GO注释 317
习题 320
参考文献 321
附录A 生物信息学文件格式 322