第1章 生物信息学基础 1
1.1 计算机网络及计算(机)环境简介 1
1.1.l WEB中的部分生物信息学资源简介 2
1.1.2 WEB中的重要搜索工具 2
1.1.3 WEB中的部分生物信息学相关新闻组资源参考 3
1.1.4 使用基于网络的工具 4
1.1.5 电子邮件(e-mail)服务 4
1.1.6 匿名FTP服务——获得软件的重要途径 5
1.1.7 网络规则——索取与奉献 6
1.1.8 从事生物信息学研究应掌握的计算机语言 7
1.2.1.l DNA数据库 8
1.2.1 基本数据库 8
1.2 生物信息学数据库及其分析 8
1.2.1.2 基因组数据库 16
1.2.1.3 蛋白质序列数据库 18
1.2.1.4 蛋白质结构数据库 25
1.2.2 常用数据库 25
1.3 基本序列数据库注释及序列格式 38
1.3.1 基本序列数据库注释 38
1.3.2 序列格式 41
1.4 信息检索系统 43
1.4.] SRS序列检索系统 43
1.4.2 Entrez信息检索系统 44
1.5 序列对齐分析 46
1.4.3 DBGET/LinkDB检索工具 46
1.5.1 记分矩阵 47
1.5.2 空位罚分 48
1.5.3 两两对齐分析 48
1.5.4 多重序列对齐分析 49
1.5.5 序列对库的对齐检索分析 50
1.5.5.1 BLAST检索服务 52
1.5.5.2 FASTA检索服务 57
1.5.5.3 Bl1tZ蛋白质序列对库检索服务 62
1.5.6 同源性有效的意义判据 63
第2章 核酸序列分析 64
2.1 核酸序列的检索 64
2.2.2 序列变换 65
2.2.3 限制性酶切分析 65
2.2 核酸序列的基本分析 65
2.2.l 分子质量、碱基组成、碱基分布 65
2.2.4 克隆测序分析 68
2.2.4.1 测序峰图查看 68
2.2.4.2 核酸测序中载体序列的识别与去除 69
2.2.4.3 其他人工序列的分析与去除 72
2.3 核酸序列的电子延伸 72
利用Un1Gene数据库进行电子延伸 74
2.4 基因的电子表达谱分析 76
2.4.1 利用UniGene数据库进行电子表达谱分析 77
2.4.2 利用Tigem的电子原位杂交服务器进行电子表达谱分析 77
2.5 核酸序列的电子基因定位分析 78
2.5.2 利用UniGene数据库进行电子基因定位 79
2.5.1 利用STS数据库进行电子基因定位 79
2.5.3 直接利用基因组序列进行电子基因定位 80
2.6 CDNA对应的基因组序列分析 81
2.6.1 通过从NCBI查询全部基因组数据库进行基因组序列的分析 82
2.6.2 通过从Sanger中心查询基因组数据库进行基因组序列的分 86
2.7 基于核酸序列对齐分析的功能预测 86
2.7.1 基于NCBI/Blast软件的核酸序列同源性分析 86
2.7.2 两条核酸序列之间的同源性分析 89
2.7.3 核酸序列之间的多重比对分析及进化分析 90
2.8 可读框架分析 91
2.8.l cDNA序列的可读框架分析 91
2.8.2 基因组序列中的编码区/内含子结构分析 93
2.8.2.1 “断裂”的真核基因 93
2.8.2.2 真核基因外显子-内含子连接区 94
2.8.2.3 基因组序列的内含子/外显子分析 95
2.8.2.4 cDNA序列与基因组序列的对齐及其显示 96
2.9 基因启动子及其他DNA调控位点分析 100
2.10 重复序列分析 102
2.10.l RepBase 102
2.10.2 利用RepeatMasker程序分析重复序列 103
2.1l 引物设计 103
2.12 向数据库中提交核酸序列 106
2.12.1 EST序列的注册 107
2.12.2 较长或全长CDNA序列的注册 108
2.13 从IMAGE协作组索取相关克隆 109
3.1.l.2 利用SRS系统从EMBL检索蛋白质序列 110
3.1.1.l 从NCBI检索蛋白质序列 110
3.1 蛋白质序列检索 110
第3章 蛋白质序列分析实践 110
3.1.l 基于网络的序列检索 110
3.1.2 通过e-ma11进行序列检索 119
3.2 蛋白质基本性质分析 120
3.2.1 疏水性分析 120
3.2.2 跨膜区分析 121
3.2.3 前导肽和蛋白质定位 123
3.2.4 卷曲螺旋分析 125
3.3 蛋白质功能预测 126
3.3.1 基于序列同源性分析的蛋白质功能预测 126
3.3.1.1 基于NCBI/Blast软件的蛋白质序列同源性分析 127
3.3.1.2 基于WU/BlaSt2软件的蛋白质序列同源性分析 127
3.3.2 基于motif结构位点、结构功能域数据库的蛋白质功能白 129
3.3.1.3 基于FASTA软件的蛋白质序列同源性分析 129
3.3.2.1 motif数据库PROSITE 130
3.3.2.2 Ptofi1e数据库 133
3.3.2.3 蛋白质序列的轮廓(Profi1e)分析 134
3.3.2.4 HITS蛋白质结构域数据库 134
3.3.2.5 InterProScan综合分析网站 135
3.3.2.6 蛋白质的结构功能域分析 136
3.4 蛋白质结构预测 138
3.4.l 蛋白质结构资源 138
3.4.l.1 PDB数据库 138
3.4.1.6 MMDB蛋白质分子模型数据库 139
3.4.1.4 HSSP数据库 139
3.4.1.5 蛋白质结构分类数据库(SCOP) 139
3.4.1.2 NRL-3D数据库 139
3.4.1.3 ISSD数据库 139
3.4.1.7 Dali/FSSP数据库 140
3.4.2 蛋白质二级结构预测 140
3.4.3 蛋白质三级结构预测 140
3.4.3.1 与已知结构的序列比较 140
3.4.3.2 同源模建 141
3.4.3.3 穿针引线(threading)算法和折叠识别 141
3.5 蛋白质分子进化分析 142
3.5.l 蛋白质分类数据库(ProtoMap) 143
3.5.2 蛋白质序列多重对齐分析及进化分析 143
4.1.1 程序开发语言 147
4.1.1.1 C语言 147
4.1 计算机服务/开发环境的构建 147
第4章 常用的生物信息学资源简介及其综台利用 147
4.1.1.2 Perl语言 149
4.1.1.3 PHP语言 151
4.l.2 数据库工具 151
4.1.2.1 MySQL数据库工具 151
4.1.2.2 ACeDB数据库及管理工具 152
4.1.3 网络服务器 153
4.1.3.1 L1nux下的Apache网络服务器 153
4.1.3.2 Windows下的Apache网络服务器 154
4.1.4 操作系统 154
4.1.4.1 L1nux操作系统 154
4.1.4.2 常用的L1nux命令 158
4.1.4.3 Linux与W1ndowsNT/2000相比的几个技术优势 161
4.1.4.4 Linux与Windows系统的集成 163
4.2 Windows下的软件资源推荐 164
4.2.1 软件的下载与安装 164
4.2.2 文件管理软件——Windows commander 164
4.2.3 文件下载——Net Vampire软件 170
4.2.4 文件传输协议——FTP命令 173
4.2.5 建立FTP服务器——FTP SerV-U软件 174
4.2.6 创建网站相关软件——Webzip软件 175
4.2.7 图形处理软件——HyperSnap 175
4.2.8 远程登录/远程管理 176
4.2.8.1 Telnet服务程序 176
4.2.8.2 NetTerm远程登录软件 177
4.2.9 压缩与解压缩工具 178
4.2.9.1 压缩软件——Winzip 178
4.2.9.2 压缩软件——WinRAR 179
4.2.10 超大文本编辑软件——UltraEdit 180
4.2.1l 程序集成开发环境——VisualBASlC 182
4.3 生物信息学软件资源 186
4.3.1 Windows环境下的生物信息学资源 186
4.3.1.1 序列分析软件——DNAMAN 186
4.3.1.2 综合序列分析软件——BioEdit 196
4.3.1.3 VectorNTI 198
4.3.1.4 引物设计软——Oligo 200
4.3.1.5 核酸序列分析软件——GeneTool 202
4.3.1.6 蛋白质序列分析软件——PepTool 203
4.3.1.7 序列分析软件——Lasergene99 204
4.3.1.8 蛋白质三维分子结构显示软件——RasMol 205
4.3.1.9 序列分析与管理软件——Omiga 209
4.3.1.l0 序列多重对齐软件——ClustalW 212
4.3.2 Linux环境下的生物信息学资源 216
4.3.3 Macintosh环境下的核酸和蛋白质序列分析 217
4.3.3.l MacOS的部分工具 217
4.3.3.2 MacOs下的生物信息学分析资源 219
4.3.4 综合生物信息学资源——生物软件网 221
4.4 资源的综合利用:自建核酸和蛋白质序列分析平台 238
4.4.1.1 下载软件 239
4.4.1.2 软件解压缩 239
4.4.l Windows下Blast软件的本地化实现及其使用 239
4.4.1.3 进行系统配置 240
4.4.1.4 Blast软件的使用 241
4.4.1.5 Visual BASIC程序接口设计及使用示例 242
4.4.2 Linux系统下命令行方式Blast软件的安装与使用 243
4.4.3 含有Web界面的Blast系统的安装与使用 243
4.4.3.l Linux操作系统安装及局域网组建 244
4.4.3.2 WEB界面Blast软件的安装 244
4.4.3.3 检索用数据库的准备 245
4.4.3.4 Blast软件的配置 246
4.4.3.5 Blast分析环境的使用 247
4.4.4.3 系统需求 249
4.4.4.2 程序设计 249
4.4.4.4 体系性能的综合评价 249
4.4.4.1 电子序列延伸的生物信息学策略 249
4.4.4 基于PC/Linux的核酸序列电子延伸系统(AutoCTG)的构建及其应用 249
4.4.4.5 数据库预处理 250
4.4.4.6 程序设计及用法 251
4.4.4.7 人胎肝来源部分EST序列和较长cDNA序列的电子延伸分析 252
4.4.5 基于PC/Linux的核酸序列分析系统的构建及其应用 257
4.4.5.1 本地化核酸序列大规模自动分析系统的构建 258
4.4.5.2 本地化核酸序列大规模分析体系的使用 264
4.5 实例分析:人ADP-核糖基化因子GTP酶活化蛋白基因的生物信息学分析 267
4.5.l cDNA序列分析 268
4.5.1.1 EST序列的获得 268
4.5.1.2 利用Blast软件进行序列相似性检索 268
4.5.1.3 确定转录物大小 270
4.5.1.4 全长cDNA序列的获得 271
4.5.1.5 可读框架分析 272
4.5.1.6 基因名称确定 274
4.5.2 蛋白质序列分析 274
4.5.2.1 基本性质分析 274
4.5.2.2 功能位点分析 274
4.5.2.3 结构功能域的确定 275
4.5.2.4 序列多重对齐分析 275
4.5.3 基因组结构分析 277
4.5.3.1 染色体定位分析 277
4.5.3.2 基因组结构确定 279
4.5.4 小结 281
附录 282
常用词汇与缩略语表 282
参考文献 287