第1章 RNA-seq简介 1
1.1引言 1
1.2 RNA的分离 3
1.3 RNA的质量控制 3
1.4文库制备 4
1.5主要的RNA-seq平台 7
1.5.1 Illumina 7
1.5.2 SOLID 8
1.5.3 Roche 454 8
1.5.4 Ion Torrent 9
1.5.5 Pacific Biosciences 9
1.5.6纳米孔技术 10
1.6 RNA-seq的应用 11
1.6.1蛋白质编码基因结构 11
1.6.2新型蛋白质编码基因 12
1.6.3基因表达的量化和比较 13
1.6.4表达数量性状基因座 14
1.6.5单细胞RNA-seq 14
1.6.6融合基因 15
1.6.7基因变异 15
1.6.8长的非编码RNA 16
1.6.9非编码小RNA 16
1.6.10扩增产物测序(ampli-seq) 16
1.7选择RNA-seq平台 17
1.7.1选择RNA-seq平台和测序模式的8个原则 17
1.7.2小结 20
参考文献 20
第2章 RNA-seq数据分析导论 23
2.1引言 23
2.2差异表达分析工作流程 25
2.2.1第一步:读段的质量控制 26
2.2.2第二步:读段的预处理 26
2.2.3第三步:将读段比对到参考基因组 26
2.2.4第四步:基因组引导的转录组组装 27
2.2.5第五步:计算表达水平 27
2.2.6第六步:比较不同条件之间的基因表达 27
2.2.7第七步:在基因组的上下文中的数据可视化 27
2.3下游分析 28
2.3.1基因注释 28
2.3.2基因集的富集分析 29
2.4自动的工作流程和管线 29
2.5硬件要求 30
2.6仿效书中的示例 30
2.6.1使用命令行工具和R 31
2.6.2使用Chipster软件 31
2.6.3示例数据集 32
2.7小结 33
参考文献 34
第3章 质量控制和预处理 35
3.1引言 35
3.2质量控制和预处理的软件 35
3.2.1 FastQC 35
3.2.2 PRINSEQ 36
3.2.3 Trimmomatic 37
3.3读段质量问题 37
3.3.1碱基质量 37
3.3.2模糊的碱基 44
3.3.3接头 46
3.3.4读段长度 47
3.3.5序列特异性偏差和由随机联体引物造成的不匹配 47
3.3.6 GC含量 48
3.3.7重复 48
3.3.8序列污染 50
3.3.9低复杂度序列和polyA尾巴 50
3.4小结 51
参考文献 52
第4章 将读段比对到参考基因组 54
4.1引言 54
4.2比对程序 54
4.2.1 Bowtie 55
4.2.2 TopHat 58
4.2.3 STAR 62
4.3比对统计量和用于操作比对文件的程序 65
4.4在基因组的上下文中可视化读段 68
4.5小结 69
参考文献 70
第5章 转录组组装 71
5.1引言 71
5.2方法 72
5.2.1转录组组装不同于基因组组装 72
5.2.2转录本重建的复杂性 73
5.2.3组装过程 73
5.2.4 de Bruijn图 75
5.2.5使用丰度信息 75
5.3数据预处理 76
5.3.1读段误差校正 77
5.3.2 SEECER 77
5.4基于作图的组装 78
5.4.1 Cufflinks 79
5.4.2 Scripture 80
5.5 de novo组装 81
5.5.1 Velvet+Oases 81
5.5.2 Trinity 83
5.6小结 87
参考文献 88
第6章 定量和基于注释的质量控制 90
6.1引言 90
6.2基于注释的质量度量 90
6.2.1基于注释的质量控制工具 91
6.3基因表达的定量研究 95
6.3.1计数每个基因的读段 96
6.3.2计数每个转录本的读段 99
6.3.3计数每个外显子的读段 103
6.4小结 104
参考文献 105
第7章 R和Bioconductor中的RNA-seq分析框架 106
7.1引言 106
7.1.1安装R和扩展包 106
7.1.2使用R 107
7.2 Bioconductor包概述 108
7.2.1软件包 108
7.2.2注释包 108
7.2.3试验包 109
7.3 Bioconductor包的描述性特征 109
7.3.1 R中的OOP特征 109
7.4在R中表示基因和转录本 111
7.5在R中表示基因组 114
7.6在R中表示SNP 116
7.7锻造新的注释包 116
7.8小结 118
参考文献 118
第8章 差异表达分析 119
8.1引言 119
8.2技术重复与生物学重复 119
8.3 RNA-seq数据中的统计分布 120
8.3.1生物学重复、计数分布和软件的选择 122
8.4归一化 122
8.5软件用法示例 124
8.5.1使用Cuffdiff 124
8.5.2使用Bioconductor包:DESeq、edgeR、limma 127
8.5.3线性模型、设计矩阵和对比矩阵 127
8.5.4差异表达分析前的准备工作 130
8.5.5 DESeq(2)的代码示例 131
8.5.6可视化 132
8.5.7供参考:其他Bioconductor包的代码例子 136
8.5.8 limma 137
8.5.9 SAMSeq(samr包) 137
8.5.10 edgeR 138
8.5.11多因素实验的DESeq2代码示例 138
8.5.12供参考:edgeR代码示例 141
8.5.13 limma代码示例 141
8.6小结 143
参考文献 143
第9章 差异外显子用法分析 146
9.1引言 146
9.2准备DEXSeq的输入文件 147
9.3将数据读入R 148
9.4访问ExonCountSet对象 149
9.5归一化和方差估计 151
9.6检验差异外显子用法 153
9.7可视化 156
9.8小结 160
参考文献 160
第10章 注释结果 161
10.1引言 161
10.2检索附加注释 161
10.2.1使用生物体专化的注释包检索基因的注释 162
10.2.2使用BioMart检索基因的注释 165
10.3使用注释进行基因集的本体论分析 167
10.4基因集分析详述 169
10.4.1使用GOstats包的竞争的方法 170
10.4.2使用Globaltest包的自包含的方法 172
10.4.3长度偏差校正方法 173
10.5小结 174
参考文献 174
第11章 可视化 176
11.1引言 176
11.1.1图像文件类型 176
11.1.2图像分辨率 177
11.1.3颜色模型 177
11.2 R中的图形 177
11.2.1热图 178
11.2.2火山图 182
11.2.3 MA图 184
11.2.4染色体组型图 185
11.2.5基因和转录本结构的可视化 187
11.3完成图 189
11.4小结 190
参考文献 190
第12章 非编码小RNA 192
12.1引言 192
12.2 microRNA(miRNA) 193
12.3微RNA并列RNA 196
12.4 Piwi关联的RNA 196
12.5内源沉默RNA 197
12.6外源沉默RNA 198
12.7转运RNA 198
12.8核仁小RNA 198
12.9小核RNA 198
12.10增强子衍生RNA 199
12.11其他非编码小RNA 199
12.12用于发现非编码小RNA的测序方法 200
12.12.1 miRNA-seq 201
12.12.2 CLIP-seq 203
12.12.3降解组测序 205
12.12.4全局连缀测序 205
12.13小结 206
参考文献 206
第13章 非编码小RNA测序数据的分析 209
13.1引言 209
13.2小RNA的发现——miRDeep2 209
13.2.1 GFF文件 210
13.2.2已知miRNA的FASTA文件 211
13.2.3设置运行环境 211
13.2.4运行miRDeep2 213
13.3 miRanalyzer 217
13.3.1运行miRanalyzer 219
13.4 miRNA靶分析 219
13.4.1计算的预测方法 219
13.4.2人工智能方法 221
13.4.3基于实验支持的方法 222
13.5 miRNA-seq和mRNA-seq数据集成 222
13.6小RNA数据库和资源 223
13.6.1 miRBase中miRNA的RNA-seq读段 223
13.6.2 miRNA的表达地图集 225
13.6.3 CLIP-seq和降解组-seq数据的数据库 226
13.6.4 miRNA和疾病的数据库 226
13.6.5研究社区和资源的通用数据库 227
13.6.6 miRNAblog 227
13.7小结 228
参考文献 229