第1章 绪论 1
1.1生物信息学简介 1
生物信息学概念 1
生物信息学的研究背景和意义 2
生物信息学的研究内容与方法 6
生物信息学的研究历史和现状 8
应用前景 16
1.2基因组时代简介 17
基因组计划 17
基因的基本结构 19
1.3基因表达谱数据挖掘的研究意义与研究现状 20
研究意义 20
研究现状 22
1.4本章小结 28
参考文献 28
第2章 DNA微阵列技术与基因表达谱 33
2.1基因芯片与DNA微阵列 33
基因芯片介绍 33
基因芯片的特点、分类和制作 34
基因芯片制备方法 36
DNA微阵列技术的应用和研究方向 38
2.2基因表达谱 40
基因表达谱的获取与表示 40
基因表达谱的特点 43
基因表达谱的数学描述 44
常用的肿瘤基因表达谱数据集 45
2.3基因表达谱数据分析 46
基因表达谱数据的预处理 46
基因表达谱数据分析的层次 50
差异基因筛选 51
基因解读与注释 52
基因表达调控 53
2.4基因表达谱的研究方向 53
2.5本章小结 55
参考文献 56
第3章 基因表达谱数据挖掘中的模式识别基础 58
3.1模式识别的概念及其研究方向 58
3.2特征提取与选择方法 59
特征提取中用到的统计量 59
基因表达谱的特征提取与选择 63
3.3常用的基因表达谱聚类与分类算法 71
基因表达谱聚类和分类的目的 71
聚类与分类算法的划分及评估准则 72
基于类间距离的聚类算法 75
层次聚类 77
基于密度、网格和模型的聚类算法 80
K-均值法 81
仿射传播聚类 83
K-近邻分类方法及其改进方法 84
决策树 86
线性判别分析 87
基因表达谱可分性判据 90
3.4分类器 91
贝叶斯分类器 91
人工神经网络 92
自组织映射 93
支持向量机 94
多分类器性能比较 97
3.5本章小结 99
参考文献 99
第4章 基于因子分量分析的基因表达谱特征提取方法 102
4.1基因表达谱特征提取方法简介 102
4.2主分量分析 103
主分量分析的基本思想 103
主分量分析算法步骤 106
4.3判决主分量分析 106
判决主分量分析的基本思想 106
判决主分量分析算法步骤 107
4.4因子分析 109
因子分析的基本思想 110
因子分析算法的步骤 110
4.5独立分量分析 111
独立分量分析的基本思想 111
独立分量分析算法的步骤 113
FastICA 115
4.6因子分析、主分量分析和独立分量分析之间的关系 115
4.7基于主分量分析、判决主分量分析和因子分析的肿瘤亚型分类方法 117
算法框架模型 117
信息基因选择 118
基于主分量分析的肿瘤亚型分类的实验结果与分析 119
基于判决主分量分析的肿瘤亚型分类的实验结果与分析 123
基于因子分析的肿瘤亚型分类的实验结果与分析 130
4.8基于独立分量分析的肿瘤亚型分类方法 133
基因表达谱的ICA模型及其生物学意义 133
基于独立分量分析的基因表达谱提取与选择算法 134
实验结果与分析 135
4.9基于独立分量分析的肿瘤亚型惩罚性分类方法 137
惩罚性回归模型 137
优化得分算法 137
惩罚性优化得分分类算法 138
特征基因的初选 138
实验结果与分析 139
4.10本章小结 141
参考文献 142
第5章 基于傅里叶与小波包变换的基因表达谱特征提取方法 144
5.1基于离散余弦变换和傅里叶变换的基因表达谱特征提取方法 144
离散傅里叶变换和离散余弦变换 144
Relief算法 145
基因表达谱分类模型 146
实验结果与分析 147
5.2基于小波包变换的基因表达谱特征提取与选择 152
小波包变换 153
肿瘤亚型分类方法 155
实验结果与分析 156
5.3基因表达谱的特征提取与选择方法比较 158
5.4本章小结 160
参考文献 161
第6章 信息基因的启发式搜索算法研究 163
6.1信息基因选择问题 163
基于基因表达谱的肿瘤分类问题描述 163
肿瘤分类模型及评估 164
信息基因选择方法简介 166
信息基因选择策略 171
6.2基于启发式搜索的基因表达谱数据挖掘算法 176
肿瘤信息基因的启发式宽度(HBSA)优先搜索算法 176
信息基因选择 177
HBSA算法实现 179
实验结果与分析 181
6.3基于Wilcoxon秩和检验的信息基因选择方法 185
算法的基本思想 186
算法的基本步骤 187
实验结果与分析 187
6.4基于Kruskal-Wallis秩和检验的基因选择方法 194
算法的基本步骤 195
实验结果与分析 195
SRBCT数据集中信息基因描述及肿瘤亚型相关基因推测 198
6.5本章小结 200
参考文献 201
第7章 基于粗糙集的信息基因选择方法 204
7.1基于粗糙集的肿瘤信息基因选择方法 204
粗糙集模型简介 204
粗糙集属性约简的一般步骤和算法实现 205
基于粗糙集的信息基因选择方法 206
实验结果与分析 207
7.2基于邻域粗糙集的肿瘤信息基因选择方法 209
邻域粗糙集模型简介 210
邻域分类器 212
基于邻域粗糙集模型的肿瘤分类方法 213
实验结果与分析 216
7.3基于邻域粗糙集的多类肿瘤亚型分类方法 221
多肿瘤亚型分类算法框架和模型 221
实验结果与分析 222
7.4本章小结 229
参考文献 229
第8章 基于基因调控概率模型的基因表达谱数据挖掘方法 231
8.1基因表达调控的生物学背景 231
8.2基于概率统计的基因调控概率模型 232
8.3基因调控概率计算 233
基于全概率公式的基因调控概率计算 234
基于最大似然估计的基因调控概率计算 236
基于贝叶斯后验概率估计的基因调控概率计算 238
8.4基于基因调控概率模型的基因选择与肿瘤基因分类 239
基于基因调控概率模型的基因选择 239
基于基因调控概率模型的肿瘤诊断与分类 241
8.5实验结果与分析 243
基于基因调控概率模型的基因选择方法的应用 243
基于基因调控概率的肿瘤诊断与分类方法的应用 254
8.6本章小结 258
参考文献 259
第9章 基于神经网络和支持向量机的基因选择及肿瘤分类方法 261
9.1人工神经网络 261
人工神经网络 261
径向基函数神经网络 266
9.2基于径向基函数神经网络的肿瘤分类方法 268
模拟退火算法 269
改进的基于模拟退火的径向基函数网络优化算法 270
实验结果与分析 274
9.3基于支持向量机的基因表达谱分类方法 277
支持向量机简介 278
超球面二类别SVM算法 283
SVM多类分类器 285
SVM决策树 288
9.4基于支持向量机和惩罚策略的基因表达谱分类方法 290
支持向量机与基因表达谱矩阵 290
基于支持向量机的基因初始关联度计算 292
基于惩罚策略的基因惩罚关联度计算 293
实验结果与分析 294
9.5基因选择算法及肿瘤样本分类器性能比较 299
9.6本章小结 302
参考文献 302
第10章 基于集成分类器系统的基因表达谱数据挖掘方法研究 306
10.1多分类器集成系统 306
多分类器集成系统的研究历史和发展现状 306
集成分类器模型及其构造方法 309
多分类器集成系统构建 310
差异度测度 316
10.2基于概率神经网络集成的肿瘤样本分类方法 319
分类算法模型 319
基于间隔的迭代搜索算法 320
实验结果与分析 322
10.3基于标准遗传算法的集成基因表达谱特征选择算法设计 325
遗传算法简介 326
集成基因表达谱特征选择算法设计 328
实验结果与分析 330
10.4基于集成独立分量的基因表达谱特征提取与选择 332
独立分 332
选择必要性的实验验证 332
集成独立分量选择在基因表达谱分析中的应用 333
实验结果与分析 335
10.5基于多目标遗传算法的基因表达谱集成特征选择算法 340
染色体编码方式设计 340
适应值函数的设计 341
集成生成个体 342
实验结果与分析 342
10.6基于进化计算的扩展集成独立分量选择系统 346
扩展独立分量选择系统设计方案 346
多目标遗传算法的设计 347
实验结果与分析 350
10.7基于遗传规划的多类基因表达谱数据分析 358
遗传规划概述 359
基于遗传规划的多类判别分析 360
基于遗传规划的多类基因表达谱数据判别分析方法 362
实验结果与分析 367
基于遗传规划的基因表达谱数据分析生物学意义 372
10.8基于旋转森林的肿瘤样本分类方法 379
基于决策树的集成系统 380
旋转森林的算法框架 380
基于旋转森林的肿瘤样本分类方法 383
实验结果与分析 386
基分类器差异度与精确度分析 390
10.9本章小结 392
参考文献 393
第11章 基于流形学习的基因表达谱特征提取方法 400
11.1流形学习的研究背景与现状 400
11.2几种典型的流形学习算法 403
11.3面向分类的流形学习中存在的问题 407
本征维数 407
样本外点问题 409
监督(半监督)流形学习 410
小样本问题 411
11.4基于局部线性判别嵌入的特征提取方法 412
局部线性嵌入算法 412
局部线性判别嵌入法的思想 415
局部线性判别嵌入法 416
11.5实验结果与分析 419
11.6本章小结 424
参考文献 425
第12章 基于张量分析的高阶基因表达谱特征提取方法 430
12.1张量分析 430
张量的基本概念及其伸展、块表示和分解 430
张量与向量、张量与矩阵和张量与张量之积 434
12.2张量的奇异值分解与多线性独立分量分析 435
12.3基于张量多线性ICA的肿瘤亚型分类方法 437
分类方法 437
实验结果与分析 439
12.4本章小结 442
参考文献 442
附录 部分源代码 445
1.判决主分量分析 445
2.启发式宽度优先搜索算法 446
3.SVM分类模型的参数选择法 448
4.基于小波包变换的基因表达谱特征提取算法 448
5.基于邻域粗糙集的基因约简算法 449
6.Relief算法 450
7.采用DCT变换抽取特征的肿瘤分类方法 451
8.概率神经网络分类方法 452
9.基于概率神经网络集成的基因表达谱特征提取方法 452
10.基于FastICA的肿瘤分类方法 454
11.基于集成独立分量分析的肿瘤分类方法 455
12.基于遗传规划的肿瘤分类方法 457
13.旋转森林 459
14.基于流形学习的肿瘤分类方法 461