第1章 基因与基因组 1
1.1 基因简述 1
1.2 基因的基本概念 3
1.3 DNA的结构特征 4
1.4 RNA的结构特征 5
1.5 蛋白质与DNA之间的相互作用 6
1.6 蛋白质识别RNA的不同策略 6
1.7 基因组结构、染色体、染色质和核小体 7
1.7.1 真核细胞染色体DNA的结构 7
1.7.2 核小体 8
1.7.3 染色质的高级结构 8
1.8 遗传密码 8
1.9 原核细胞的基因调控 9
1.10 真核细胞的基因调控 11
1.11 RNA分子的调控作用 14
参考资料 14
第2章 生物信息常用数据库 16
2.1 GenBank数据库简介 16
2.1.1 GenBank的数据来源 16
2.1.2 GenBank的数据内容与类型 16
2.1.3 GenBank的数据检索 26
2.2 UniProt数据库简介 27
2.2.1 UniProt的数据来源 28
2.2.2 UniProt的数据内容与类型 28
2.3 Ensembl数据库简介 30
2.3.1 Ensembl的数据特征 31
2.3.2 Ensembl的注释 31
2.3.3 Ensembl的注释文件 32
2.4 UCSC Genome Browser数据库简介 32
参考资料 33
第3章 高通量测序技术 35
3.1 高通量测序技术中的常用术语 35
3.2 高通量测序技术简介 35
3.2.1 第一代测序技术 36
3.2.2 第二代测序技术 36
3.2.3 第三代测序技术 41
3.2.4 其他测序技术 43
3.3 深度测序的应用 43
3.4 深度测序数据处理面临的挑战 44
参考资料 45
第4章 深度测序的数据格式 48
4.1 序列的相关格式 48
4.1.1 FASTA格式 48
4.1.2 FASTQ格式 50
4.1.3 FASTQ质量值的计算方法 50
4.1.4 fastqC程序 51
4.2 序列比对的相关格式 52
4.2.1 SAM格式 53
4.2.2 BAM格式 53
4.3 突变信息的相关格式 54
4.4 序列注释及可视化的相关格式 55
4.4.1 BED格式 55
4.4.2 GFF格式 55
4.4.3 GTF格式 55
4.5 Samtools简介 56
4.6 Bedtools简介 58
4.7 Vcftools简介 58
参考资料 59
第5章 测序数据拼接算法 61
5.1 测序数据的常用术语 61
5.2 拼接的基本原理 62
5.2.1 基于贪婪策略的拼接算法 63
5.2.2 基于OLC策略的拼接算法 66
5.2.3 基于de Bruijn图策略的拼接算法 68
5.3 基因组拼接面临的挑战 70
5.4 基因组拼接软件的选择 70
参考资料 73
第6章 序列比对算法 76
6.1 序列比对的常用术语 76
6.2 比对算法简介 77
6.3 三种常用的比对软件 79
6.3.1 Bowtie2简介 79
6.32 BWA简介 80
6.3.3 SOAP2简介 80
6.4 多序列比对 80
参考资料 81
第7章 转录组测序(RNA-seq)数据分析 83
7.1 RNA-seq简介 83
7.2 RNA-seq技术的主要应用领域 84
7.3 RNA-seq技术的基本实验流程 86
7.4 RNA-seq技术中的测序手段 87
7.4.1 短读长cDNA测序 88
7.4.2 长读长cDNA测序 89
7.4.3 直接RNA测序 90
7.5 RNA-seq的数据处理与相关的软件 90
7.6 RNA-seq中的统计学问题 94
参考资料 95
第8章 染色质免疫共沉淀测序(ChIP-seq)数据分析 98
8.1 ChIP-seq简介 98
8.2 ChIP-seq的基本实验流程 99
8.3 ChIP-seq的数据分析流程 99
8.4 富集区域鉴定算法 100
8.4.1 ChIP-seq的信号类型 100
8.4.2 常见的富集区域鉴定流程 101
8.5 用于富集区域鉴定的MACS2软件 101
8.6 ChIP-seq数据中的峰注释 102
8.7 比较两组ChIP-seq的测序结果 102
8.8 DNA功能域(motif) 103
参考资料 104
第9章 ATAC-seq数据分析 105
9.1 ATAC-seq简介 105
9.2 ATAC-seq的数据处理 106
参考资料 107
第10章 microRNA-seq数据分析 108
10.1 microRNA简介 108
10.2 microRNA-seq的数据处理 109
10.3 microRNA的匹配原理 110
10.4 microRNA的常用数据库 111
10.4.1 mirDIP数据库 111
10.4.2 miRBase数据库 111
10.4.3 TargetScan数据库 111
10.4.4 PITA数据库 112
10.4.5 starBase V2.0数据库 112
参考资料 112
第11章 单细胞测序数据分析 114
11.1 单细胞测序简介 114
11.2 单细胞测序的分类 115
11.3 单细胞测序的技术实现 116
11.4 单细胞测序数据分析的相关算法 119
参考资料 122
第12章 基因组关联分析(GWAS) 126
12.1 GWAS简介 126
12.2 GWAS的数据格式 128
12.3 GWAS的研究对象及研究方法 129
12.4 GWAS中的统计学问题 129
参考资料 130
第13章 常见生物测序数据的下游分析 132
13.1 基因富集分析 132
13.2 比较基因富集分析的方法 132
13.2.1 过表达分析(ORA) 132
13.2.2 功能集打分(FCS) 133
13.2.3 通路拓扑结构(PT) 133
13.2.4 网络拓扑结构(NT) 133
13.3 信号查看 134
13.4 热点图 134
参考资料 134
第14章 Hi-C seq数据分析 136
14.1 Hi-C seq简介 136
14.2 染色质构象捕获(3C)技术及其衍生技术 136
14.3 Hi-C seq数据分析的常用工具 139
14.4 Hi-C seq数据的存储 139
14.4.1 Hi-C seq数据分析中的文件格式 139
14.4.2 读长配对数据的存储 140
14.4.3 互作矩阵的存储 140
14.5 Hi-C seq数据的特点 141
14.6 Hi-C seq数据的分析方法 141
参考资料 143