《生物数据整合与挖掘》PDF下载

  • 购买积分:10 如何计算积分?
  • 作  者:朱扬勇,熊赟著
  • 出 版 社:上海:复旦大学出版社
  • 出版年份:2009
  • ISBN:9787309066142
  • 页数:240 页
图书介绍:本书系统介绍了生物数据整合与挖掘方面的技术,包括生物数据获取技术、各种生物数据源数据整合技术、生物序列挖掘技术、基因芯片数据挖掘技术、转录因子结合位点挖掘技术等。

第1章 背景知识 1

1.1生物信息学 1

1.1.1基本概念 1

1.1.2研究内容 2

1.1.3研究方法 5

1.1.4研究机构 6

1.2数据整合 6

1.2.1数据资源 7

1.2.2数据整合的动因 8

1.2.3数据整合的概念 9

1.2.4数据整合的内容 12

1.3数据挖掘 13

1.3.1数据挖掘的定义 13

1.3.2数据挖掘的任务 14

1.3.3数据挖掘的类型 21

1.3.4相关技术的差异 23

第2章 数据整合与数据挖掘方法 26

2.1数据整合的方法 26

2.1.1数据整合的方式 26

2.1.2数据整合的步骤 28

2.2数据挖掘的方法 33

2.2.1数据挖掘过程示例 33

2.2.2数据挖掘过程模型 34

2.2.3数据挖掘应用方式 36

2.3数据清洁技术 38

2.3.1数据的质量问题 38

2.3.2数据清洁的主要工作 39

2.4数据仓库技术 40

2.4.1数据仓库的概念 41

2.4.2数据组织 41

2.4.3主题设计 43

2.4.4数据加载 44

2.4.5数据规约 46

2.5小结 46

第3章 生物数据源 47

3.1生物数据 47

3.1.1生物序列数据 47

3.1.2生物分子结构数据 48

3.1.3芯片及基因表达数据 49

3.1.4生物网络数据 49

3.2生物数据组织 50

3.2.1生物数据的数据库组织形式 51

3.2.2生物数据的互联网组织形式 53

3.3生物数据库 54

3.3.1生物序列数据库 55

3.3.2基因组数据库 57

3.3.3结构数据库 58

3.3.4芯片和基因表达数据库 58

3.3.5生物文献数据库 59

3.4生物数据源的特征 60

3.5小结 62

第4章 复杂生物数据源的数据抽取 63

4.1生物数据抽取 63

4.1.1生物数据抽取面临的问题 63

4.1.2包装器的要素 65

4.1.3抽取算法 66

4.1.4元数据生成与包装器生成工具 66

4.2包装器的设计 67

4.2.1基于实例切分的抽取算法 67

4.2.2基于定位器多结点共享的数据抽取模型 68

4.2.3数据抽取模型描述 68

4.2.4元数据的生成和维护 69

4.2.5数据抽取模型表达能力 69

4.3包装器解决方案 69

4.3.1面向无噪声复杂数据源的解决方案 69

4.3.2面向含噪声复杂数据源的解决方案 70

4.3.3 ReDE和L-树包装器生成工具的架构 71

4.3.4 ReDE和L-树包装器生成工具的实现技术 73

4.4 L-树匹配:面向复杂数据源的数据抽取算法 74

4.4.1 L-树上的数据映射机制 74

4.4.2 L-树匹配算法的相关概念 76

4.4.3 L-树匹配算法 78

4.4.4 L-树匹配算法举例 79

4.5基于L-树的包装器生成工具 82

4.5.1将ERE扩充成数据抽取脚本语言 82

4.5.2可视化编辑调试环境 83

4.5.3 ERE的可视化构建 83

4.5.4 ERE的逻辑检查 86

4.5.5抽取结果的可视化评价 86

4.5.6以XML格式输出抽取结果 87

4.6小结 88

第5章 生物数据整合案例 89

5.1生物数据整合系统的设计 89

5.1.1生物数据整合的关键问题分析 89

5.1.2生物数据整合目标的确立 90

5.1.3生物数据整合方式和技术的设计 91

5.2基于GO的数据整合 92

5.2.1 GO简介 93

5.2.2 DB2GO表 95

5.2.3语义相似数据库表 95

5.2.4以GO统一数据的逻辑和语义 96

5.3数据抽取和增量更新 98

5.3.1数据抽取 98

5.3.2数据的增量更新 100

5.4基于GO的查询技术 101

5.4.1异构生物数据库的语义查询 101

5.4.2 BioDW中语义查询的体系结构 101

5.4.3 GO语义相似性度量方法 102

5.4.4语义相似性查询 104

5.5 BioDW系统 106

5.5.1 BioDW的系统结构 106

5.5.2 BioDW的系统的数据规模 107

5.5.3 BioDW的数据查询 107

5.6小结 115

第6章 生物序列数据挖掘进展 116

6.1生物序列数据挖掘的基本概念和内容 116

6.1.1生物序列相似性 117

6.1.2生物序列模式挖掘 118

6.1.3生物序列聚类分析 119

6.1.4生物序列分类分析 120

6.1.5生物序列关联分析 120

6.1.6生物序列异常分析 120

6.2生物序列数据挖掘的研究阶段 121

6.2.1基于统计技术的数据挖掘方法的应用阶段 121

6.2.2一般化数据挖掘方法的应用阶段 122

6.2.3专门数据挖掘技术的设计阶段 122

6.3生物序列数据挖掘研究与应用现状 122

6.3.1生物序列模式挖掘方面 123

6.3.2生物序列聚类分析方面 127

6.3.3生物序列分类分析方面 130

6.3.4生物序列关联分析方面 132

6.3.5生物序列异常分析方面 132

6.4生物序列数据挖掘研究趋势 133

6.5小结 134

第7章 生物序列数据挖掘技术 135

7.1序列数据源 135

7.2生物序列模式挖掘 137

7.2.1生物序列模式挖掘问题 137

7.2.2基于多支持度的生物序列模式挖掘框架 139

7.2.3基于多支持度的生物序列模式挖掘算法 141

7.3生物序列聚类分析 147

7.3.1生物序列聚类问题分析 147

7.3.2蛋白质序列聚类 149

7.3.3基因序列聚类 154

7.4生物序列分类分析 167

7.4.1生物序列分类问题分析 167

7.4.2转录因子分类 167

7.4.3基于支持向量机的转录因子分类算法 169

7.5小结 171

第8章 基因芯片数据挖掘 172

8.1基因表达谱芯片数据挖掘 172

8.1.1基因表达谱数据分析 172

8.1.2基因表达相似性分析 173

8.1.3基因表达共发生分析 173

8.1.4基因表达路径分析 173

8.1.5特殊表达基因分析 174

8.2基因表达谱数据库建设 175

8.2.1基因表达谱芯片数据的标准 175

8.2.2基因表达谱数据库建设的难点 176

8.2.3数据库结构设计 177

8.2.4数据加载与数据管理 179

8.2.5自动导入数据 180

8.3基因表达谱数据挖掘系统 182

8.3.1数据挖掘框架 182

8.3.2 BDMAPA架构扩展 183

8.3.3基因表达谱芯片数据挖掘系统 184

8.4小结 186

第9章 转录因子、顺式调控元件挖掘系统 187

9.1转录因子、顺式调控元件挖掘原理 187

9.1.1转录因子、顺式调控元件挖掘原理 188

9.1.2顺式调控元件文本挖掘原理 188

9.2转录因子、顺式调控元件挖掘系统设计 194

9.2.1数据挖掘软件 194

9.2.2数据分析服务 195

9.2.3综合的转录因子、顺式调控元件数据库 200

9.3小结 201

第10章 生物序列数据库管理系统 202

10.1生物数据处理面临的问题 202

10.1.1生物数据存储方式 202

10.1.2生物序列数据库的查询需求 204

10.2生物序列数据模型BioSeg 205

10.2.1数据结构 206

10.2.2代数操作 210

10.2.3 Open BUILT-IN函数 224

10.2.4等价规则 225

10.2.5 BioSeg模型的特点 227

10.3生物序列数据库管理系统的设计 229

10.3.1代数查询实例 229

10.3.2查询语言 232

10.3.3体系结构 234

10.4小结 235

参考文献 236

致谢 239