第一部分 基本方法 3
第1章 生物序列突变与比对分析 3
1.1生物序列突变与比对问题 3
1.1.1生物序列的类型与结构 3
1.1.2生物序列突变与比对问题的意义与应用 4
1.1.3生物序列比对的原理与方法 6
1.2二重序列比对的有关算法 9
1.2.1关于动态规划算法的一些说明 9
1.2.2动态规划算法 10
1.2.3统计判决算法的基本思想 15
1.2.4 BLAST软件的使用 16
1.3多重序列的比对问题 19
1.3.1 MSA的意义与概况 19
1.3.2 MSA的定义与优化准则 21
1.4 MSA算法与计算 22
1.4.1 MSA算法的基本概念 22
1.4.2 MSA的算法步骤 24
1.4.3 ClustalW软件的使用 26
1.4.4关于MSA的几点说明 30
1.4.5几个多重序列比对应用例子 31
1.5 SPA算法的原理与计算 32
1.5.1 SPA算法的基本原理 32
1.5.2 SPA算法的基本步骤 34
1.5.3 SPA算法源码 36
1.5.4 SPA算法的有关问题讨论 39
1.5.5 SPA算法的一个实例计算 41
习题与思考 47
第2章 系统发育分析 49
2.1分子系统发育分析的基本概念 49
2.2基于距离的方法 49
2.2.1非加权分组平均法 49
2.2.2邻接法 52
2.3基于特征的方法 55
2.4极大似然和Bayes方法 57
2.4.1进化的概率论模型 58
2.4.2构建进化树的极大似然方法 60
2.4.3构建进化树的Bayes方法 62
2.5构建进化树软件简介 63
习题与思考 68
第3章 蛋白质一级结构的语义分析 69
3.1蛋白质一级结构的信息与统计分析法 69
3.1.1蛋白质一级结构的语义分析简介 69
3.1.2信息、统计分析法的要素与要点 70
3.1.3局部词的定义与判定 72
3.1.4蛋白质一级结构的语义分析 74
3.2蛋白质序列语义结构的组合分析法 80
3.2.1关于组合图论的有关记号 81
3.2.2数据库的复杂度 84
3.2.3数据库的关键词与核心词 86
3.2.4关于组合分析的若干应用问题 89
习题与思考 92
第4章 蛋白质结构预测 93
4.1蛋白质二级结构预测 93
4.1.1蛋白质二级结构预测的评价体系 93
4.1.2 Chou-Fasman方法 94
4.1.3 GOR方法 96
4.1.4 PHD方法 98
4.2蛋白质空间结构预测 100
4.2.1同源序列搜索 100
4.2.2折叠识别方法 101
4.2.3从头预测方法 104
4.3蛋白质结构预测软件简介 105
4.3.1 PHD软件使用简介 105
4.3.2使用nnpredict软件预测蛋白质二级结构 108
4.3.3 PSIPRED软件使用简介 109
习题与思考 111
第5章 基因识别 112
5.1绪论 112
5.1.1原核基因识别 112
5.1.2真核基因识别 113
5.1.3 常用模式基因组简介 114
5.2基因序列特征分析 116
5.2.1内含子与外显子 116
5.2.2 CpG岛 117
5.2.3密码子使用偏性 118
5.3开放阅读框识别 119
5.3.1开放阅读框特性 119
5.3.2开放阅读框识别原理 121
5.3.3开放阅读框识别软件使用 122
5.4隐Markov模型基因识别方法 126
5.4.1隐Markov模型 127
5.4.2 GENSCAN隐Markov模型方法和原理 128
5.4.3 GENSCAN软件使用 131
5.4.4基因识别方法评价 134
5.5其他基因识别方法简介 135
5.5.1神经网络方法 135
5.5.2 Z曲线方法 136
习题与思考 138
第6章 基因表达数据分析 139
6.1基因表达序列标签数据分析简介 139
6.1.1基因表达序列标签的概念 139
6.1.2基因表达序列标签数据的获取 141
6.1.3基因表达序列标签数据聚类分析 145
6.1.4基因表达序列标签的应用 147
6.2基因芯片数据的获取 147
6.2.1基本概念 148
6.2.2基因芯片实验过程 149
6.2.3基因芯片数据获取 150
6.2.4基因芯片数据内容 152
6.3基因芯片数据分析 153
6.3.1基因表达谱芯片数据标准化 154
6.3.2基因表达谱芯片数据散点图分析 156
6.3.3基因表达差异显著性分析 157
6.4基因芯片数据聚类分析 159
6.4.1基本概念 159
6.4.2特征描述 160
6.4.3分层聚类方法 162
6.4.4模糊聚类方法 167
6.5其他基因芯片数据分析方法简介 173
6.5.1支持向量机方法 173
6.5.2 K均值聚类 173
6.5.3自组织映射图聚类 174
6.6基因芯片数据分析软件简介 175
习题与思考 176
第二部分 生物学备忘录 179
第7章 核酸与DNA 179
7.1细胞与染色体 179
7.1.1细胞 179
7.1.2染色体概念 180
7.1.3染色体特征 181
7.2核酸分子与DNA结构 182
7.2.1核酸分子 182
7.2.2 DNA分子结构 184
7.3 RNA结构与分类 187
7.3.1 RNA结构 187
7.3.2 RNA分类 188
第8章 氨基酸与蛋白质 190
8.1氨基酸 190
8.1.1氨基酸组成 190
8.1.2氨基酸符号表示 190
8.1.3氨基酸分类 192
8.2肽链 193
8.3蛋白质 194
8.3.1蛋白质分类 194
8.3.2蛋白质一级结构 194
8.3.3蛋白质空间结构 195
8.3.4蛋白质功能 196
8.3.5蛋白质组 197
8.4中心法则与遗传密码 197
8.4.1中心法则 197
8.4.2遗传密码 199
第9章 基因与基因组 201
9.1基因 201
9.1.1基本概念 201
9.1.2基因突变 202
9.2基因组 203
9.2.1基本概念 203
9.2.2人类基因组 205
9.2.3后基因组计划 206
9.3基因表达与调控 207
9.3.1基本概念 207
9.3.2原核生物基因表达与调控 209
9.3.3真核生物基因表达与调控 211
第10章 生物信息数据库 213
10.1 GenBank数据库 213
10.1.1数据来源 213
10.1.2数据内容与类型 213
10.1.3序列格式 215
10.1.4数据检索与下载 215
10.1.5数据提交 216
10.1.6应用实例 218
10.2 Swiss-Prot数据库 220
10.2.1数据来源 221
10.2.2 数据内容 221
10.2.3序列格式 222
10.2.4数据检索与下载 222
10.2.5数据提交 224
10.2.6应用实例 224
附录1 GenBank数据库中的核酸序列记录 228
附录2 Swiss-Prot数据库中的蛋白质序列记录 231
第三部分 数学备忘录 237
第11章 智能计算理论与算法 237
11.1智能计算概论与感知器理论 237
11.1.1感知器模型及其学习算法 237
11.1.2感知器模型的推广 241
11.1.3支持向量机 244
11.2 EM算法 246
11.2.1 EM算法概论 246
11.2.2 极大似然估计的EM算法 247
11.2.3组合决策中的EM计算 250
11.3 EM算法在其他统计问题中的应用 254
11.3.1互熵与Fisher矩阵 254
11.3.2 混合分布参数估计中的EM算法 257
11.3.3分布族的聚类中的EM算法 261
11.4 Weka软件的使用 267
11.4.1 Weka的基本工作环境与数据准备 267
11.4.2 Weka的使用 269
第12章 概率、信息与统计 275
12.1概率与信息 275
12.1.1随机变量与多重随机变量 275
12.1.2随机变量的特征数 280
12.1.3随机变量与概率分布的信息度量 282
12.2重要随机变量和极限定理 285
12.2.1几种重要的随机变量及其概率分布 285
12.2.2随机变量的极限定理 290
12.3统计分析简介 293
12.3.1统计分析的基本要素 293
12.3.2参数的点估计理论 295
12.3.3参数的区间估计理论 298
12.3.4其他问题 299
12.4多元统计中的几个典型问题 299
12.4.1多元统计分析的基本数学模型 299
12.4.2聚类分析 300
12.4.3主成分分析与因子分析 303
12.4.4因子分析 306
12.4.5判别分析 307
12.5 R统计软件包简介 309
12.5.1 R系统初览 309
12.5.2 R的数据读入 311
12.5.3使用R做统计分析 312
第13章 随机过程 314
13.1随机过程的一般理论 314
13.1.1随机过程的基本概念 314
13.1.2独立随机序列 315
13.1.3 Poisson过程与可加过程 317
13.2 Markov过程 321
13.2.1 Markov过程的基本概念 321
13.2.2 Markov过程的生成算子 324
13.3隐Markov模型 327
13.3.1隐Markov模型的基本概念 327
13.3.2 HMM的状态估计 328
13.3.3 HMM的EM学习算法 331
第14章 有关图与树的基本知识 334
14.1图的基本概念与结构 334
14.1.1图的一般定义与记号 334
14.1.2树图与系统树 336
14.2组合空间与de Bruijn-Good图 337
14.3序列与数据库的复杂度理论 340
14.3.1复杂度的定义 340
14.3.2复杂度的计算算法 341
14.3.3算法的改进 342
参考文献 344
索引 357
《数学与现代科学技术丛书》已出版书目 362