第一部分 基本方法 3
第1章 生物序列突变与比对分析 3
1.1 生物序列突变与比对问题 3
1.1.1 生物序列的类型与结构 3
1.1.2 生物序列突变与比对问题的意义与应用 4
1.1.3 生物序列比对的原理与方法 6
1.2 二重序列比对的有关算法 9
1.2.1 关于动态规划算法的一些说明 9
1.2.2 动态规划算法 10
1.2.3 统计判决算法的基本思想 15
1.2.4 BLAST软件的使用 16
1.3 多重序列的比对问题 19
1.3.1 MSA的意义与概况 19
1.3.2 MSA的定义与优化准则 21
1.4 MSA算法与计算 22
1.4.1 MSA算法的基本概念 22
1.4.2 MSA的算法步骤 24
1.4.3 ClustalW软件的使用 26
1.4.4 关于MSA的几点说明 30
1.4.5 几个多重序列比对应用例子 31
1.5 SPA算法的原理与计算 32
1.5.1 SPA算法的基本原理 32
1.5.2 SPA算法的基本步骤 34
1.5.3 SPA算法源码 36
1.5.4 SPA算法的有关问题讨论 39
1.5.5 SPA算法的一个实例计算 41
习题与思考 47
第2章 系统发育分析 49
2.1 分子系统发育分析的基本概念 49
2.2 基于距离的方法 49
2.2.1 非加权分组平均法 49
2.2.2 邻接法 52
2.3 基于特征的方法 55
2.4 极大似然和Bayes方法 57
2.4.1 进化的概率论模型 58
2.4.2 构建进化树的极大似然方法 60
2.4.3 构建进化树的Bayes方法 62
2.5 构建进化树软件简介 63
习题与思考 68
第3章 蛋白质一级结构的语义分析 69
3.1 蛋白质一级结构的信息与统计分析法 69
3.1.1 蛋白质一级结构的语义分析简介 69
3.1.2 信息、统计分析法的要素与要点 70
3.1.3 局部词的定义与判定 72
3.1.4 蛋白质一级结构的语义分析 74
3.2 蛋白质序列语义结构的组合分析法 80
3.2.1 关于组合图论的有关记号 81
3.2.2 数据库的复杂度 84
3.2.3 数据库的关键词与核心词 86
3.2.4 关于组合分析的若干应用问题 89
习题与思考 92
第4章 蛋白质结构预测 93
4.1 蛋白质二级结构预测 93
4.1.1 蛋白质二级结构预测的评价体系 93
4.1.2 Chou-Fasman方法 94
4.1.3 GOR方法 96
4.1.4 PHD方法 98
4.2 蛋白质空间结构预测 100
4.2.1 同源序列搜索 100
4.2.2 折叠识别方法 101
4.2.3 从头预测方法 104
4.3 蛋白质结构预测软件简介 105
4.3.1 PHD软件使用简介 105
4.3.2 使用nnpredict软件预测蛋白质二级结构 108
4.3.3 PSIPRED软件使用简介 109
习题与思考 111
第5章 基因识别 112
5.1 绪论 112
5.1.1 原核基因识别 112
5.1.2 真核基因识别 113
5.1.3 常用模式基因组简介 114
5.2 基因序列特征分析 116
5.2.1 内含子与外显子 116
5.2.2 CpG岛 117
5.2.3 密码子使用偏性 118
5.3 开放阅读框识别 119
5.3.1 开放阅读框特性 119
5.3.2 开放阅读框识别原理 121
5.3.3 开放阅读框识别软件使用 122
5.4 隐Markov模型基因识别方法 126
5.4.1 隐Markov模型 127
5.4.2 GENSCAN隐Markov模型方法和原理 128
5.4.3 GENSCAN软件使用 131
5.4.4 基因识别方法评价 134
5.5 其他基因识别方法简介 135
5.5.1 神经网络方法 135
5.5.2 Z曲线方法 136
习题与思考 138
第6章 基因表达数据分析 139
6.1 基因表达序列标签数据分析简介 139
6.1.1 基因表达序列标签的概念 139
6.1.2 基因表达序列标签数据的获取 141
6.1.3 基因表达序列标签数据聚类分析 145
6.1.4 基因表达序列标签的应用 147
6.2 基因芯片数据的获取 147
6.2.1 基本概念 148
6.2.2 基因芯片实验过程 149
6.2.3 基因芯片数据获取 150
6.2.4 基因芯片数据内容 152
6.3 基因芯片数据分析 153
6.3.1 基因表达谱芯片数据标准化 154
6.3.2 基因表达谱芯片数据散点图分析 156
6.3.3 基因表达差异显著性分析 157
6.4 基因芯片数据聚类分析 159
6.4.1 基本概念 159
6.4.2 特征描述 160
6.4.3 分层聚类方法 162
6.4.4 模糊聚类方法 167
6.5 其他基因芯片数据分析方法简介 173
6.5.1 支持向量机方法 173
6.5.2 K均值聚类 173
6.5.3 自组织映射图聚类 174
6.6 基因芯片数据分析软件简介 175
习题与思考 176
第二部分 生物学备忘录 179
第7章 核酸与DNA 179
7.1 细胞与染色体 179
7.1.1 细胞 179
7.1.2 染色体概念 180
7.1.3 染色体特征 181
7.2 核酸分子与DNA结构 182
7.2.1 核酸分子 182
7.2.2 DNA分子结构 184
7.3 RNA结构与分类 187
7.3.1 RNA结构 187
7.3.2 RNA分类 188
第8章 氨基酸与蛋白质 190
8.1 氨基酸 190
8.1.1 氨基酸组成 190
8.1.2 氨基酸符号表示 190
8.1.3 氨基酸分类 192
8.2 肽链 193
8.3 蛋白质 194
8.3.1 蛋白质分类 194
8.3.2 蛋白质一级结构 194
8.3.3 蛋白质空间结构 195
8.3.4 蛋白质功能 196
8.3.5 蛋白质组 197
8.4 中心法则与遗传密码 197
8.4.1 中心法则 197
8.4.2 遗传密码 199
第9章 基因与基因组 201
9.1 基因 201
9.1.1 基本概念 201
9.1.2 基因突变 202
9.2 基因组 203
9.2.1 基本概念 203
9.2.2 人类基因组 205
9.2.3 后基因组计划 206
9.3 基因表达与调控 207
9.3.1 基本概念 207
9.3.2 原核生物基因表达与调控 209
9.3.3 真核生物基因表达与调控 211
第10章 生物信息数据库 213
10.1 GenBank数据库 213
10.1.1 数据来源 213
10.1.2 数据内容与类型 213
10.1.3 序列格式 215
10.1.4 数据检索与下载 215
10.1.5 数据提交 216
10.1.6 应用实例 218
10.2 Swiss-Prot数据库 220
10.2.1 数据来源 221
10.2.2 数据内容 221
10.2.3 序列格式 222
10.2.4 数据检索与下载 222
10.2.5 数据提交 224
10.2.6 应用实例 224
附录1 GenBank数据库中的核酸序列记录 228
附录2 Swiss-Prot数据库中的蛋白质序列记录 231
第三部分 数学备忘录 237
第11章 智能计算理论与算法 237
11.1 智能计算概论与感知器理论 237
11.1.1 感知器模型及其学习算法 237
11.1.2 感知器模型的推广 241
11.1.3 支持向量机 244
11.2 EM算法 246
11.2.1 EM算法概论 246
11.2.2 极大似然估计的EM算法 247
11.2.3 组合决策中的EM计算 250
11.3 EM算法在其他统计问题中的应用 254
11.3.1 互熵与Fisher矩阵 254
11.3.2 混合分布参数估计中的EM算法 257
11.3.3 分布族的聚类中的EM算法 261
11.4 Weka软件的使用 267
11.4.1 Weka的基本工作环境与数据准备 267
11.4.2 Weka的使用 269
第12章 概率、信息与统计 275
12.1 概率与信息 275
12.1.1 随机变量与多重随机变量 275
12.1.2 随机变量的特征数 280
12.1.3 随机变量与概率分布的信息度量 282
12.2 重要随机变量和极限定理 285
12.2.1 几种重要的随机变量及其概率分布 285
12.2.2 随机变量的极限定理 290
12.3 统计分析简介 293
12.3.1 统计分析的基本要素 293
12.3.2 参数的点估计理论 295
12.3.3 参数的区间估计理论 298
12.3.4 其他问题 299
12.4 多元统计中的几个典型问题 299
12.4.1 多元统计分析的基本数学模型 299
12.4.2 聚类分析 300
12.4.3 主成分分析与因子分析 303
12.4.4 因子分析 306
12.4.5 判别分析 307
12.5 R统计软件包简介 309
12.5.1 R系统初览 309
12.5.2 R的数据读入 311
12.5.3 使用R做统计分析 312
第13章 随机过程 314
13.1 随机过程的一般理论 314
13.1.1 随机过程的基本概念 314
13.1.2 独立随机序列 315
13.1.3 Poisson过程与可加过程 317
13.2 Markov过程 321
13.2.1 Markov过程的基本概念 321
13.2.2 Markov过程的生成算子 324
13.3 隐Markov模型 327
13.3.1 隐Markov模型的基本概念 327
13.3.2 HMM的状态估计 328
13.3.3 HMM的EM学习算法 331
第14章 有关图与树的基本知识 334
14.1 图的基本概念与结构 334
14.1.1 图的一般定义与记号 334
14.1.2 树图与系统树 336
14.2 组合空间与deBruijn-Good图 337
14.3 序列与数据库的复杂度理论 340
14.3.1 复杂度的定义 340
14.3.2 复杂度的计算算法 341
14.3.3 算法的改进 342
参考文献 344
索引 357
《数学与现代科学技术丛书》已出版书目 362