第一部分 细胞与分子生物学概论 3
1细胞系统与生命密码 3
1.1细胞面临的挑战 3
1.2细胞如何面对挑战 3
1.3细胞内的各种分子 4
1.4细胞内结构与空间 4
1.4.1细胞核 5
1.4.2细胞膜 6
1.4.3细胞质 6
1.4.4内体、溶酶体和过氧化物酶体 7
1.4.5核糖体 7
1.4.6内质网 8
1.4.7高尔基体 8
1.4.8细胞骨架 8
1.4.9线粒体 9
1.4.10叶绿体 10
1.5细胞是一个系统 11
1.5.1细胞系统 11
1.5.2细胞的系统生物学 11
1.5.3如何研究细胞系统 12
2 DNA序列:基因组基础 13
2.1 DNA双螺旋和碱基序列 13
2.2 DNA分子如何复制和保持稳定性 13
2.3 DNA中保存的遗传信息如何转化为蛋白质 15
2.4基因组概览 16
2.4.1最小基因组 16
2.4.2基因组大小 17
2.4.3基因组中的蛋白质编码区 17
2.4.4基因组非编码区 18
2.5 DNA包装、序列访问和DNA-蛋白质互作 20
2.5.1 DNA包装 20
2.5.2序列访问 20
2.5.3 DNA-蛋白质互作 20
2.6 DNA序列的突变与多样性 21
2.7基因组演化 23
2.8表观基因组与DNA甲基化 24
2.9基因组测序与疾病风险 25
2.9.1孟德尔(单基因)疾病 25
2.9.2多基因控制的复杂疾病 25
2.9.3基因组不稳定导致的疾病 26
2.9.4表观基因组/表观遗传疾病 26
3 RNA:转录后的序列 27
3.1 RNA作为信使 27
3.2 RNA的分子结构 27
3.3 mRNA的产生、加工与周转 28
3.3.1 DNA模板 28
3.3.2原核生物基因的转录 28
3.3.3真核生物基因pre-mRNA的初始转录 30
3.3.4从mRNA前体到成熟的mRNA 31
3.3.5运输与定位 33
3.3.6稳定性与降解 33
3.3.7 mRNA转录水平上调控的主要步骤 34
3.4 RNA不仅仅是信使 35
3.4.1核酶 35
3.4.2核小RNA和核仁小RNA 36
3.4.3端粒复制中的RNA 36
3.4.4 RNAi和非编码小RNA 36
3.4.5长非编码RNA 39
3.4.6其他非编码RNA 40
3.5细胞转录组学研究概览 40
第二部分 新一代测序技术及数据分析概论 43
4新一代测序技术的来龙去脉 43
4.1怎样做DNA测序:从第一代到新一代 43
4.2典型的NGS实验流程 45
4.3不同NGS测序平台的详细介绍 48
4.3.1 Illumina可逆染色终止子测序 48
4.3.2 Ion Torrent半导体测序 52
4.3.3 PacBio单分子实时测序 53
4.4测序的偏好性及其他影响NGS数据准确性的负面因素 54
4.4.1文库构建中的偏好性 55
4.4.2测序过程中的偏好性和其他因素 56
4.5 NGS的主要应用 56
4.5.1转录组特征和可变剪接检测 56
4.5.2遗传突变与变异的发现 57
4.5.3基因组的从头组装 57
4.5.4蛋白质与DNA的互作分析(ChIP-Seq) 57
4.5.5表观基因组学与DNA甲基化研究 57
4.5.6宏基因组学 58
5新一代测序数据前期分析的常见步骤 59
5.1碱基识别、FASTQ文件格式和碱基质量值 60
5.2 NGS数据的质量控制与处理 61
5.3读段的定位 63
5.3.1定位方法与算法 63
5.3.2定位算法和参考基因组序列的选择 65
5.3.3标准定位文件格式SAM/BAM 66
5.3.4定位文件的检验与操作 67
5.4第三阶段分析 70
6新一代测序数据管理与分析的计算能力需求 71
6.1 NGS数据的存储、传输与共享 71
6.2 NGS数据分析所需的计算能力 72
6.3 NGS数据分析所需软件 74
6.4 NGS数据分析所需的生物信息学技能 75
第三部分 新一代测序数据分析的具体应用 79
7转录组测序 79
7.1转录组测序的原理 79
7.2实验设计 79
7.2.1因子设计 79
7.2.2重复与随机化 80
7.2.3样本制备 80
7.2.4测序策略 81
7.3转录组测序数据分析 82
7.3.1数据质控与读段定位 82
7.3.2转录组测序数据的均一化 84
7.3.3差异表达基因的鉴定 85
7.3.4可变剪接分析 87
7.3.5转录组测序数据的可视化 88
7.3.6被识别基因的功能分析 88
7.4利用转录组测序发现新基因 88
8小RNA测序 90
8.1小RNA新一代测序数据生成和上游处理 91
8.1.1数据生成 91
8.1.2预处理 92
8.1.3定位 92
8.1.4小RNA的注释和预测 93
8.1.5均一化 94
8.2鉴别差异表达的小RNA 94
8.3已鉴定小RNA的功能分析 94
9用全基因组重测序方法分析基因型和发现基因组变异 96
9.1数据预处理、比对、再比对和再校准 96
9.2单碱基变异和indel检测 98
9.2.1 SNV检测 98
9.2.2新突变位点的检测 99
9.2.3 Indel检测 99
9.2.4转录组测序数据的变异检测 101
9.2.5变异检测格式文件 101
9.2.6评估VCF结果 102
9.3结构变异检测 103
9.3.1基于配对读段的SV检测 103
9.3.2断点的确定 104
9.3.3基于从头组装的SV检测 104
9.3.4 CNV检测 104
9.3.5综合SV分析 105
9.4检测变异的注释 105
9.5变异与疾病或性状关联的检验 105
10用新一代测序结果进行基因组从头组装 107
10.1从头组装的基因组因素与测序策略 107
10.1.1影响从头组装的基因组因素 107
10.1.2从头组装的测序策略 108
10.2重叠群的组装 109
10.2.1测序数据的预处理、错误修正与基因组特征的评估 109
10.2.2重叠群组装的算法 111
10.3组装骨架 112
10.4组装质量评估 113
10.5补齐缺口 114
10.6局限性与未来的发展 114
11用ChIP-Seq法对蛋白质-DNA互作定位 116
11.1 ChIP-Seq的原理 116
11.2实验设计 118
11.2.1实验对照 118
11.2.2测序深度 118
11.2.3重复 118
11.3读段定位、峰值确定与峰值可视化 119
11.3.1数据质控与读段定位 119
11.3.2峰值确定 121
11.3.3峰值可视化 127
11.4不同的结合点分析 127
11.5功能分析 129
11.6基序分析 129
11.7整合ChIP-Seq数据分析 130
12用新一代测序进行表观基因组学和DNA甲基化分析 132
12.1 DNA甲基化测序策略 132
12.1.1全基因组亚硫酸氢盐测序 133
12.1.2简化的亚硫酸氢盐测序 134
12.1.3基于甲基化DNA富集的甲基化测序 134
12.1.4区分胞嘧啶甲基化与亚硫酸氢盐测序中去甲基化产物 135
12.2 DNA甲基化测序数据分析 135
12.2.1数据质量控制和预处理 135
12.2.2读段定位 135
12.2.3 DNA甲基化的定量 137
12.2.4 DNA甲基化数据的可视化 138
12.3甲基化胞嘧啶位点及差异区域的检测 140
12.4数据检验、核实和解析 140
13用新一代测序进行宏基因组学研究 142
13.1实验设计与样本制备 143
13.1.1宏基因组样本采集 143
13.1.2宏基因组样本制备 144
13.2测序方法 145
13.3全基因组鸟枪法宏基因组测序数据分析 145
13.4测序数据的质控和预处理 147
13.5微生物群落的分类学特征 147
13.5.1宏基因组的组装 147
13.5.2序列的分bin 148
13.5.3在宏基因组序列中识别可读框和其他基因组元素 149
13.5.4系统遗传学标记分析 150
13.6 微生物群落的功能性特征 150
13.6.1基因功能注释 150
13.6.2代谢途径的重建 151
13.7比较宏基因组分析 151
13.7.1宏基因组测序数据均一化 152
13.7.2识别不同丰度的物种或操作分类单位 152
13.8 整合宏基因组数据分析管道 152
13.9宏基因组数据库 153
第四部分 发展中的新一代测序技术与数据分析 157
14新一代测序将走向何方? 157
14.1发展中的新一代测序 157
14.2高通量测序数据分析的生物信息学工具的快速涌现与变化 159
14.3 NGS分析管道的规范化与流程化 160
14.4并行计算 160
14.5云计算 161
参考文献 164
附录A新一代测序数据分析常用文件格式 188
附录B词汇表 190