《基因表达谱数据挖掘方法研究》PDF下载

  • 购买积分:15 如何计算积分?
  • 作  者:黄德双著
  • 出 版 社:北京:科学出版社
  • 出版年份:2009
  • ISBN:9787030236807
  • 页数:462 页
图书介绍:本书主要介绍了生物信息学中基因表达谱数据挖掘的各种方法。首先阐述了基因芯片和基因表达谱等一些基本概念,以及现代数据挖掘中的各种方法,然后着重介绍了基于基因表达谱的分类问题,重点研究了信息基因的选择方法、特征抽取方法以及基于统计学习的分类器设计方法。全书论述透彻、内容详实、图文并茂,书末附有一些关键数据挖掘方法的程序代码(Matlab语言)。本书适合研究生和广大科技工作者研究使用,高年级本科生也可以作为课外参考读物。

第1章 绪论 1

1.1生物信息学简介 1

生物信息学概念 1

生物信息学的研究背景和意义 2

生物信息学的研究内容与方法 6

生物信息学的研究历史和现状 8

应用前景 16

1.2基因组时代简介 17

基因组计划 17

基因的基本结构 19

1.3基因表达谱数据挖掘的研究意义与研究现状 20

研究意义 20

研究现状 22

1.4本章小结 28

参考文献 28

第2章 DNA微阵列技术与基因表达谱 33

2.1基因芯片与DNA微阵列 33

基因芯片介绍 33

基因芯片的特点、分类和制作 34

基因芯片制备方法 36

DNA微阵列技术的应用和研究方向 38

2.2基因表达谱 40

基因表达谱的获取与表示 40

基因表达谱的特点 43

基因表达谱的数学描述 44

常用的肿瘤基因表达谱数据集 45

2.3基因表达谱数据分析 46

基因表达谱数据的预处理 46

基因表达谱数据分析的层次 50

差异基因筛选 51

基因解读与注释 52

基因表达调控 53

2.4基因表达谱的研究方向 53

2.5本章小结 55

参考文献 56

第3章 基因表达谱数据挖掘中的模式识别基础 58

3.1模式识别的概念及其研究方向 58

3.2特征提取与选择方法 59

特征提取中用到的统计量 59

基因表达谱的特征提取与选择 63

3.3常用的基因表达谱聚类与分类算法 71

基因表达谱聚类和分类的目的 71

聚类与分类算法的划分及评估准则 72

基于类间距离的聚类算法 75

层次聚类 77

基于密度、网格和模型的聚类算法 80

K-均值法 81

仿射传播聚类 83

K-近邻分类方法及其改进方法 84

决策树 86

线性判别分析 87

基因表达谱可分性判据 90

3.4分类器 91

贝叶斯分类器 91

人工神经网络 92

自组织映射 93

支持向量机 94

多分类器性能比较 97

3.5本章小结 99

参考文献 99

第4章 基于因子分量分析的基因表达谱特征提取方法 102

4.1基因表达谱特征提取方法简介 102

4.2主分量分析 103

主分量分析的基本思想 103

主分量分析算法步骤 106

4.3判决主分量分析 106

判决主分量分析的基本思想 106

判决主分量分析算法步骤 107

4.4因子分析 109

因子分析的基本思想 110

因子分析算法的步骤 110

4.5独立分量分析 111

独立分量分析的基本思想 111

独立分量分析算法的步骤 113

FastICA 115

4.6因子分析、主分量分析和独立分量分析之间的关系 115

4.7基于主分量分析、判决主分量分析和因子分析的肿瘤亚型分类方法 117

算法框架模型 117

信息基因选择 118

基于主分量分析的肿瘤亚型分类的实验结果与分析 119

基于判决主分量分析的肿瘤亚型分类的实验结果与分析 123

基于因子分析的肿瘤亚型分类的实验结果与分析 130

4.8基于独立分量分析的肿瘤亚型分类方法 133

基因表达谱的ICA模型及其生物学意义 133

基于独立分量分析的基因表达谱提取与选择算法 134

实验结果与分析 135

4.9基于独立分量分析的肿瘤亚型惩罚性分类方法 137

惩罚性回归模型 137

优化得分算法 137

惩罚性优化得分分类算法 138

特征基因的初选 138

实验结果与分析 139

4.10本章小结 141

参考文献 142

第5章 基于傅里叶与小波包变换的基因表达谱特征提取方法 144

5.1基于离散余弦变换和傅里叶变换的基因表达谱特征提取方法 144

离散傅里叶变换和离散余弦变换 144

Relief算法 145

基因表达谱分类模型 146

实验结果与分析 147

5.2基于小波包变换的基因表达谱特征提取与选择 152

小波包变换 153

肿瘤亚型分类方法 155

实验结果与分析 156

5.3基因表达谱的特征提取与选择方法比较 158

5.4本章小结 160

参考文献 161

第6章 信息基因的启发式搜索算法研究 163

6.1信息基因选择问题 163

基于基因表达谱的肿瘤分类问题描述 163

肿瘤分类模型及评估 164

信息基因选择方法简介 166

信息基因选择策略 171

6.2基于启发式搜索的基因表达谱数据挖掘算法 176

肿瘤信息基因的启发式宽度(HBSA)优先搜索算法 176

信息基因选择 177

HBSA算法实现 179

实验结果与分析 181

6.3基于Wilcoxon秩和检验的信息基因选择方法 185

算法的基本思想 186

算法的基本步骤 187

实验结果与分析 187

6.4基于Kruskal-Wallis秩和检验的基因选择方法 194

算法的基本步骤 195

实验结果与分析 195

SRBCT数据集中信息基因描述及肿瘤亚型相关基因推测 198

6.5本章小结 200

参考文献 201

第7章 基于粗糙集的信息基因选择方法 204

7.1基于粗糙集的肿瘤信息基因选择方法 204

粗糙集模型简介 204

粗糙集属性约简的一般步骤和算法实现 205

基于粗糙集的信息基因选择方法 206

实验结果与分析 207

7.2基于邻域粗糙集的肿瘤信息基因选择方法 209

邻域粗糙集模型简介 210

邻域分类器 212

基于邻域粗糙集模型的肿瘤分类方法 213

实验结果与分析 216

7.3基于邻域粗糙集的多类肿瘤亚型分类方法 221

多肿瘤亚型分类算法框架和模型 221

实验结果与分析 222

7.4本章小结 229

参考文献 229

第8章 基于基因调控概率模型的基因表达谱数据挖掘方法 231

8.1基因表达调控的生物学背景 231

8.2基于概率统计的基因调控概率模型 232

8.3基因调控概率计算 233

基于全概率公式的基因调控概率计算 234

基于最大似然估计的基因调控概率计算 236

基于贝叶斯后验概率估计的基因调控概率计算 238

8.4基于基因调控概率模型的基因选择与肿瘤基因分类 239

基于基因调控概率模型的基因选择 239

基于基因调控概率模型的肿瘤诊断与分类 241

8.5实验结果与分析 243

基于基因调控概率模型的基因选择方法的应用 243

基于基因调控概率的肿瘤诊断与分类方法的应用 254

8.6本章小结 258

参考文献 259

第9章 基于神经网络和支持向量机的基因选择及肿瘤分类方法 261

9.1人工神经网络 261

人工神经网络 261

径向基函数神经网络 266

9.2基于径向基函数神经网络的肿瘤分类方法 268

模拟退火算法 269

改进的基于模拟退火的径向基函数网络优化算法 270

实验结果与分析 274

9.3基于支持向量机的基因表达谱分类方法 277

支持向量机简介 278

超球面二类别SVM算法 283

SVM多类分类器 285

SVM决策树 288

9.4基于支持向量机和惩罚策略的基因表达谱分类方法 290

支持向量机与基因表达谱矩阵 290

基于支持向量机的基因初始关联度计算 292

基于惩罚策略的基因惩罚关联度计算 293

实验结果与分析 294

9.5基因选择算法及肿瘤样本分类器性能比较 299

9.6本章小结 302

参考文献 302

第10章 基于集成分类器系统的基因表达谱数据挖掘方法研究 306

10.1多分类器集成系统 306

多分类器集成系统的研究历史和发展现状 306

集成分类器模型及其构造方法 309

多分类器集成系统构建 310

差异度测度 316

10.2基于概率神经网络集成的肿瘤样本分类方法 319

分类算法模型 319

基于间隔的迭代搜索算法 320

实验结果与分析 322

10.3基于标准遗传算法的集成基因表达谱特征选择算法设计 325

遗传算法简介 326

集成基因表达谱特征选择算法设计 328

实验结果与分析 330

10.4基于集成独立分量的基因表达谱特征提取与选择 332

独立分 332

选择必要性的实验验证 332

集成独立分量选择在基因表达谱分析中的应用 333

实验结果与分析 335

10.5基于多目标遗传算法的基因表达谱集成特征选择算法 340

染色体编码方式设计 340

适应值函数的设计 341

集成生成个体 342

实验结果与分析 342

10.6基于进化计算的扩展集成独立分量选择系统 346

扩展独立分量选择系统设计方案 346

多目标遗传算法的设计 347

实验结果与分析 350

10.7基于遗传规划的多类基因表达谱数据分析 358

遗传规划概述 359

基于遗传规划的多类判别分析 360

基于遗传规划的多类基因表达谱数据判别分析方法 362

实验结果与分析 367

基于遗传规划的基因表达谱数据分析生物学意义 372

10.8基于旋转森林的肿瘤样本分类方法 379

基于决策树的集成系统 380

旋转森林的算法框架 380

基于旋转森林的肿瘤样本分类方法 383

实验结果与分析 386

基分类器差异度与精确度分析 390

10.9本章小结 392

参考文献 393

第11章 基于流形学习的基因表达谱特征提取方法 400

11.1流形学习的研究背景与现状 400

11.2几种典型的流形学习算法 403

11.3面向分类的流形学习中存在的问题 407

本征维数 407

样本外点问题 409

监督(半监督)流形学习 410

小样本问题 411

11.4基于局部线性判别嵌入的特征提取方法 412

局部线性嵌入算法 412

局部线性判别嵌入法的思想 415

局部线性判别嵌入法 416

11.5实验结果与分析 419

11.6本章小结 424

参考文献 425

第12章 基于张量分析的高阶基因表达谱特征提取方法 430

12.1张量分析 430

张量的基本概念及其伸展、块表示和分解 430

张量与向量、张量与矩阵和张量与张量之积 434

12.2张量的奇异值分解与多线性独立分量分析 435

12.3基于张量多线性ICA的肿瘤亚型分类方法 437

分类方法 437

实验结果与分析 439

12.4本章小结 442

参考文献 442

附录 部分源代码 445

1.判决主分量分析 445

2.启发式宽度优先搜索算法 446

3.SVM分类模型的参数选择法 448

4.基于小波包变换的基因表达谱特征提取算法 448

5.基于邻域粗糙集的基因约简算法 449

6.Relief算法 450

7.采用DCT变换抽取特征的肿瘤分类方法 451

8.概率神经网络分类方法 452

9.基于概率神经网络集成的基因表达谱特征提取方法 452

10.基于FastICA的肿瘤分类方法 454

11.基于集成独立分量分析的肿瘤分类方法 455

12.基于遗传规划的肿瘤分类方法 457

13.旋转森林 459

14.基于流形学习的肿瘤分类方法 461