当前位置:首页 > 生物
生物信息学分析与实践  MATLAB生物信息学工具箱应用
生物信息学分析与实践  MATLAB生物信息学工具箱应用

生物信息学分析与实践 MATLAB生物信息学工具箱应用PDF电子书下载

生物

  • 电子书积分:11 积分如何计算积分?
  • 作 者:刘伟,孙志强,杨森编著
  • 出 版 社:北京:电子工业出版社
  • 出版年份:2018
  • ISBN:9787121333743
  • 页数:295 页
图书介绍:本书是生物信息学分析和研究的实践指导,精选生物信息学分析中的重要案例,结合作者多年教学实践,借助MATLAB生物信息学工具箱,进行序列数据分析、芯片数据分析、高通量测序和质谱数据分析等,包括常规的序列比对和统计分析,直接访问网络数据库和本地数据库,以及进行RNA结构预测和多种图形的可视化等。本书从底层开始进行生物学数据常规分析,直观地演示各种函数的使用方法和分析结果。
《生物信息学分析与实践 MATLAB生物信息学工具箱应用》目录

第1章 序列分析 1

1.1计算和可视化序列统计特性 1

1.1.1人类线粒体基因组 1

1.1.2计算序列统计特性 2

1.1.3考察开放阅读框(ORF) 4

1.1.4考察注释特征 6

1.1.5提取和分析ND2和COX1蛋白 7

1.1.6计算人类线粒体基因组中所有基因的密码子使用频率 10

1.2两两序列比对 12

1.2.1序列比对介绍 12

1.2.2查找序列信息 12

1.2.3确定蛋白质编码序列 15

1.2.4比较氨基酸序列 15

1.2.5序列比对结果分析 19

1.3评估比对的统计学显著性 19

1.3.1从MATLAB空间中获取NCBI数据 19

1.3.2初步比对和全局比对 20

1.3.3评估打分的显著性 22

1.3.4打分不具有统计学显著性的例子 23

1.3.5局部比对和随机序列 26

1.4全基因组比对 28

1.4.1提取基因组信息 28

1.4.2基因比对 30

1.4.3考察分数的含义 32

1.4.4利用稀疏矩阵减少存储量 34

1.4.5查看同源基因 37

1.5分析同义和非同义替换 39

1.5.1介绍 39

1.5.2提取HIV-1基因组的两个序列信息 40

1.5.3计算HIV-1基因的Ka/Ks比值 40

1.5.4利用滑动窗口计算Ka/Ks比值 41

1.5.5 GAG、POL和ENV基因的滑动窗口分析 42

1.5.6分析GP 120的Ka/Ks比值和表位 44

1.6追踪禽流感病毒 45

1.6.1禽流感病毒介绍 46

1.6.2计算每个H5N1基因的Ka/Ks比值 46

1.6.3针对HA蛋白质进行系统发育分析 49

1.6.4利用多维变尺度可视化序列距离 51

1.6.5在非洲和亚洲地图上展示H5N1病毒的地理区域 53

1.6.6利用谷歌地图观察地理区域 55

1.6.7在谷歌地图中查看文件 56

参考文献 57

第2章 高通量测序 58

2.1分析Illumina/Solexa下一代测序数据 58

2.1.1简介 58

2.1.2读取_sequence.txt(FASTQ)文件 58

2.1.3考察序列读数的长度分布 59

2.1.4考察序列片段的碱基组成 60

2.1.5考察质量打分分布 61

2.1.6在标准之间转换质量打分 62

2.1.7根据质量打分进行过滤和去除 62

2.1.8统计读数出现概况 63

2.1.9识别人造的均聚物 64

2.2识别RNA-seq数据中差异表达的基因 65

2.2.1 RNA-seq技术介绍 65

2.2.2前列腺癌症数据集 65

2.2.3为目标基因建立一个注释对象 66

2.2.4输入匹配的短读数匹配数据 66

2.2.5确定数字化基因表达 68

2.2.6推断RNA表达的差异信号 70

2.2.7估计文库规模因子 71

2.2.8估计基因丰度 72

2.2.9估计负二项式分布参数 73

2.2.10经验累计分布函数 74

2.2.11测试差异表达 75

2.3分析人类末端肠道微生物 78

2.3.1人类末端肠道菌群简介 78

2.3.2成人远端肠道微生物分类剖析 78

2.3.3结合分类分布和基本分类 81

2.3.4基于KEGG类进行功能对比分析 83

2.3.5基于COG分类进行功能对比分析 85

2.3.6基于功能表示集中微生物 89

2.4分析马尾藻样本的宏基因组 89

2.4.1简介 89

2.4.2读取BLAST命中报告 90

2.4.3过滤BLAST命中次数 90

2.4.4内存匹配的分类学数据文件 91

2.4.5用分类学信息注释BLAST报告 91

2.4.6根据学名为BLAST命中分类 93

2.4.7保存注释的BLAST报告 93

2.4.8确定BLAST命中次数的分类学分布 94

2.4.9滤除孤立分配 95

2.4.10绘制BLAST命中的分类学分布 95

2.4.11将分析局限至每个查询的最佳命中 96

2.4.12分类节点信息的内存映射 96

2.4.13根据更高的分类学目划分BLAST命中 97

2.4.14以图的形式表示分类学分布 99

2.5研究基因组规模的DNA甲基化谱差异 101

2.5.1简介 101

2.5.2数据集 101

2.5.3为BAM格式文件创建MATLAB接口 102

2.5.4关联CpG岛和DNA甲基化 104

2.5.5序列数据的统计建模 106

2.5.6识别显著的甲基化区域 109

2.5.7寻找具有显著甲基化启动子区域的基因 110

2.5.8寻找显著甲基化的基因内部区域 113

2.5.9甲基化模式的差异分析 117

参考文献 121

第3章 芯片数据分析 122

3.1芯片数据可视化 122

3.1.1考察微阵列数据 122

3.1.2微阵列数据的空间图 123

3.1.3微阵列的统计参数 127

3.1.4微阵列数据的散点图 129

3.2分析Affymetrix芯片数据 135

3.2.1关于Affymetrix数据文件 135

3.2.2显示图像文件 137

3.2.3基因名称和探针集ID 148

3.3分析芯片数据并识别差异表达的基因 149

3.3.1芯片数据集简介 149

3.3.2下载表达数据 150

3.3.3过滤表达数据 151

3.3.4识别差异的基因表达 151

3.3.5采用基因本体注释上调基因 156

3.3.6寻找通路中的差异表达基因 159

3.4通过分析Affymetrix SNP芯片研究DNA副本数变化 159

3.4.1简介 160

3.4.2数据集 160

3.4.3获取SNP芯片的探针水平数据 161

3.4.4输入和转换数据集 163

3.4.5探针强度标准化 165

3.4.6探针水平的概要 166

3.4.7获取SNP探针信息 167

3.4.8原始拷贝数估计 167

3.4.9过滤和排序 168

3.4.10 PCR片段长度标准化 169

3.4.11 CN基因谱 171

3.4.12 SCLS样本的8q扩增 172

3.4.13 CN获得/缺失汇总图 174

3.5芯片数据的基因本体富集分析 175

3.5.1简介 175

3.5.2基因本体功能举例 175

3.5.3通过聚类分析筛选一组感兴趣的基因子集 178

3.5.4获取酵母基因组数据库中的注释基因 180

3.5.5基因芯片中被注释的基因数目 181

3.5.6观察GO注释的出现概率 181

3.5.7最显著条目的进一步分析 182

参考文献 185

第4章 质谱数据分析 186

4.1原始质谱数据的预处理 186

4.1.1下载数据 186

4.1.2谱的重采样 187

4.1.3基线校正 189

4.1.4谱排列 189

4.1.5谱图标准化 191

4.1.6去除峰噪声 192

4.1.7采用波形降噪方法寻找峰值 193

4.1.8分段:用层次聚类合并谱峰 195

4.1.9动态规划分割 196

4.2采用顺序和并行计算实现谱的批量处理 197

4.2.1简介 198

4.2.2设置数据仓库 198

4.2.3顺序分批处理 199

4.2.4基于多核计算机的并行批处理 200

4.2.5基于分布计算的并行批处理 200

4.2.6异步并行处理 201

4.2.7后期处理 202

4.3显著性特征识别以及蛋白质谱分类 203

4.3.1简介 203

4.3.2样本可视化 204

4.3.3关键特征排序 206

4.3.4基于线性判别分析的盲分类 207

4.3.5利用PCA/LDA进行数据降维 208

4.3.6特征选择子集的随机搜索 209

4.3.7利用评估集来评估选择特征的质量 209

4.3.8可替换的统计学习方法 212

4.4采用遗传算法寻找质谱数据特征 213

4.4.1简介 213

4.4.2导入本地质谱数据到MATLAB 213

4.4.3建立遗传算法的适应度函数 214

4.4.4建立初始种群 214

4.4.5设定遗传算法选项 215

4.4.6运行GA寻找20个具有可判别性的特征 216

4.4.7显示具有判别性的特征 218

参考文献 219

第5章 可视化工具 220

5.1聚类结果可视化 220

5.1.1数据导入 220

5.1.2聚类 221

5.1.3查看和更改聚类选项 221

5.1.4数据集的行列聚类 223

5.1.5对热图的操作 225

5.1.6操作系统树 226

5.1.7改变配色方案和显示范围 228

5.1.8 5000个显著基因的聚类 230

5.2分子三维结构的可视化 232

5.2.1泛素结构介绍 232

5.2.2泛素分子显示 232

5.2.3对分子进行旋转和放大 233

5.2.4评估结构中的氨基酸电荷分布 234

5.2.5研究结构的疏水性谱 235

5.2.6测量原子距离 236

5.2.7展示和标注泛素结构中的赖氨酸残基 237

5.2.8检查泛素中的异肽键 238

5.2.9泛素比对和SUMO序列 239

5.2.10将泛素和SUMO的结构叠加 240

5.3相互作用数据可视化 243

5.3.1将进化树表示为图 243

5.3.2改变BIOGRAGH对象的属性 248

5.3.3绘制自定义节点 251

5.4图论函数 253

5.4.1从SimBiology模型创建一个图 254

5.4.2可视化图 254

5.4.3使用图论函数 256

5.4.4寻找节点pA与pC之间的最短路径 257

5.4.5遍历图 258

5.4.6寻找图中的连通部分 259

5.4.7模拟移除一个反应 260

参考文献 263

第6章 外部数据库和程序调用 264

6.1连接本地数据库 264

6.1.1检查数据库工具箱 264

6.1.2为原始数据库建立一个备份 264

6.1.3为MATLAB配置数据库 264

6.1.4连接到数据库 265

6.1.5获取数据库信息 265

6.1.6从GenBank收集序列数据并插入数据库 265

6.1.7核对导入数据的序列 266

6.1.8更新数据库中的数据 267

6.1.9为数据库添加比对信息 267

6.1.10检索比对 267

6.1.11为数据增加BLAST报表信息 268

6.1.12对序列进行BLAST搜索 268

6.1.13使用可视化的查询构建器将信息导入MATLAB 269

6.2连接KEGG的API网络服务器 270

6.2.1利用信息操作来展示通路数据库中的统计参数 270

6.2.2利用conv操作符实现KEGG标识符与外部标识符的相互转换 271

6.2.3提取KEGG分类学数据库的物种列表 271

6.2.4获取KEGG通路数据库中人类的通路列表 272

6.2.5为通路染色 278

6.2.6展示静态图 279

6.3调用Bioperl函数 279

6.3.1简介 280

6.3.2访问序列信息 280

6.3.3从MATLAB调用Perl程序 281

6.3.4在Perl程序中调用MATLAB函数 292

6.3.5生物信息学工具箱中的蛋白质分析工具 294

参考文献 295

相关图书
作者其它书籍
返回顶部