当前位置:首页 > 工业技术
数据挖掘原理与算法
数据挖掘原理与算法

数据挖掘原理与算法PDF电子书下载

工业技术

  • 电子书积分:12 积分如何计算积分?
  • 作 者:邵峰晶,于忠清编著
  • 出 版 社:北京:中国水利水电出版社
  • 出版年份:2003
  • ISBN:7508416538
  • 页数:322 页
图书介绍:数据挖掘技术是近几年国内外迅速发展起来的一门交叉学科,涉及到数据库、统计学、人工智能与机器学习等多个领域。本书介绍了大量的数据挖掘算法,各个算法有很强的实用性。本书是国内第一本对数据挖掘技术的基础算法进行详细描述的实用性书籍。读者对象为本科生、研究生及各领域的高级软件开发人员。
《数据挖掘原理与算法》目录

1.1 数据挖掘的社会需求 1

第1章 导论 1

1.2 什么是数据挖掘 2

1.3 数据挖掘的数据来源 4

1.4 数据挖掘的分类 5

1.4.1 分类分析(ClassificationAnalysis) 6

1.4.2 聚类分析(ClusteringAnalysis) 7

1.4.3 关联分析(AssociationAnalysis) 8

1.4.4 序列分析及时间序列(SequenceAnalysisandTimeSequence) 10

1.4.5 孤立点分析(OutlierAnalysis) 10

1.5 数据挖掘的体系结构与运行过程 11

1.5.1 数据挖掘的体系结构 11

1.4.6 其他分析 11

1.5.2 数据挖掘的步骤 13

1.5.3 实例 15

1.6 数据挖掘与其他相关技术 16

1.6.1 数据挖掘与数据库中的知识发现 16

1.6.2 数据挖掘与OLAP 17

1.6.3 数据挖掘与人工智能和机器学习 18

1.6.4 数据挖掘与统计学 19

1.6.5 数据挖掘与客户关系管理 20

1.6.6 软硬件发展对数据挖掘的影响 21

1.6.7 XML与面向Web的数据挖掘技术 22

1.7 数据挖掘工具的评价标准 26

1.8 数据挖掘的应用 27

1.9 数据挖掘的要求及挑战 29

第2章 数据仓库技术 31

2.1 数据仓库概述 31

2.1.1 数据仓库的定义 31

2.1.2 数据仓库查询系统 31

2.1.3 OLTP与OLAP 32

2.1.4 数据仓库与数据集市 33

2.1.5 数据仓库系统的结构 34

2.1.6 数据仓库中的元数据管理 35

2.2 联机分析处理(OLAP) 38

2.2.1 OLAP的功能及体系结构 38

2.2.2 OLAP数据组织模型 39

2.2.3 数据仓库的建模 42

2.2.4 OLAP的Web结构 44

2.2.5 OLAP数据查询机制 45

2.3 多维数据模型 45

2.3.1 数据模型 46

2.3.2 代数操作 49

2.3.3 数据集合维护操作 54

2.4 海威数据仓库系统简介 55

2.4.1 HighwayDecisionCenterV1.0系统结构 55

2.4.2 HighwayDecisionCenterV2.0系统结构 58

2.4.3 海威数据仓库网络结构 59

2.5 数据仓库应用举例 60

2.5.1 信用卡资信分析 62

2.5.2 贷款分析 64

3.1 概论 68

第3章 数据挖掘中的数据预处理 68

3.1.1 预处理的基本功能 69

3.1.2 预处理的主要方法 70

3.2 数字属性的离散化与特征选择 73

3.2.1 Chi2算法简介 73

3.2.2 举例 75

3.2.3 讨论 76

3.3 数据的采样 77

3.3.1 数据挖掘不同领域中的采样 78

3.3.2 数据挖掘中的采样方法 79

3.3.3 静态与动态采样 79

3.4 概念分层 81

3.4.1 数据库中的面向属性的归纳 81

3.4.2 概念分层的动态提炼 85

3.4.3 针对数字属性的概念分层的自动产生 88

第4章 关联规则 91

4.1 关联规则挖掘的基本概念 91

4.2 关联规则的发现算法 93

4.2.1 发现大的项集 93

4.2.2 算法Apriori 94

4.2.3 算法AprioriTid 96

4.2.4 算法AprioriHybrid 97

4.2.5 生成规则 98

4.3 多值属性关联规则 99

4.3.1 基本概念 99

4.3.3 确定多值属性划分的聚类算法CP 100

4.3.2 MAQA算法 100

4.3.4 合并数量属性的相邻值 102

4.4 多层关联规则挖掘 103

4.4.1 概念层次(ConceptualHierarchies) 103

4.4.2 同层(SameHierarchy)关联规则挖掘 104

4.4.3 混合层(MixedHierarchies)关联规则挖掘 109

4.4.4 交叉层(CrossHierarchies)关联规则挖掘 111

4.5 约束性关联规则发现方法及算法 115

4.5.1 问题陈述 115

4.5.2 过滤事务数据库 115

4.5.3 算法Separate 117

4.5.4 扩展的约束条件 120

4.6 关联规则的增量式更新算法 121

4.6.1 IUA算法 122

4.6.2 PIUA算法 125

第5章 数据分类 126

5.1 决策树基本算法 128

5.1.1 决策树生成算法 128

5.1.2 决策树的修剪 130

5.2 决策树ID3 132

5.2.1 基本概念 132

5.2.2 定义 134

5.2.3 ID3算法 135

5.3 决策树学习算法C4.5 136

5.3.1 使用增益比例 136

5.3.2 处理未知值的训练样本 137

5.3.3 有连续值的属性 138

5.3.4 规则的产生 138

5.3.5 交叉验证(CrossValidation) 138

5.3.6 C4.5 的工作流程 139

5.4 分类与回归树(CART) 140

5.4.1 基本定义 141

5.4.2 构建树算法 143

5.4.3 修剪(Pruning) 145

5.4.4 决策树评估(Estimation) 148

5.4.5 内存管理及时间复杂性分析 151

5.5 SLIQ:一种快速可扩展的分类算法 152

5.5.2 SLIQ分类器 153

5.5.1 扩展性问题 153

5.5.3 数据结构及算法 158

5.6 SPRINT:数据挖掘中一种可扩展的并行分类器 162

5.6.1 串行算法 163

5.6.2 分类并行化 167

第6章 多维访问与数据可视化 170

6.1 多维访问方法 170

6.1.1 引言 170

6.1.2 空间数据的结构 171

6.1.3 基本的数据结构 175

6.2 R-树及R*树:空间搜索的动态索引树 178

6.2.1 R-树的索引结构 178

6.2.2 搜索及更新 180

6.2.3 ChooseSubtree算法 184

6.2.4 R*树的分裂 185

6.2.5 强迫重插入 186

6.2.6 R*树:一个有效的点存取方法 187

6.3 多维数据的平行坐标表示法 188

6.4 圆形分段及基于相似性的排列 191

6.4.1 圆形分段:一种大数据量多维数据可视化技术 191

6.4.2 基于相似性原理的多维数据排列的可视化技术 193

第7章 聚类分析 197

7.1 基础知识 201

7.1.1 距离与相似系数 203

7.1.2 聚类的特征与聚类间的距离 205

7.2 分层聚类法 206

7.2.1 最短距离法 207

7.2.2 最长距离法 209

7.2.3 中间距离法 210

7.2.4 其他方法 213

7.3 分割聚类算法CLARANS 216

7.3.1 PAM算法 216

7.3.2 CLARA算法 217

7.3.3 基于随机搜索的聚类算法CLARANS 218

7.4 聚类算法k-means及k-modes 219

7.4.1 k-means算法 219

7.4.2 改进的k-means算法 221

7.4.3 大型离散数据集的快速聚类算法 224

7.5 高维度数据的自动子空间聚类算法CLIQUE 228

7.5.1 问题描述 229

7.5.2 算法 231

7.6 OPTICS:识别聚类结构的对象排序 236

7.6.1 根据聚类结构对数据库排序 237

7.6.2 识别聚类结构 243

7.6.3 自动化技术 248

7.7 利用分层的平衡迭代归约及聚类 253

7.7.1 聚类特征(ClusteringFeature)及CF-树 254

7.7.2 CF-树重建算法 258

7.7.3 BIRCH聚类算法 260

7.7.4 阶段1的算法 260

7.7.5 阶段2的算法 262

7.7.6 阶段3的算法 263

7.7.7 阶段4的算法 264

7.7.8 内存管理及时间复杂性分析 265

7.8 大型数据集中孤立点挖掘的高效算法 266

7.8.1 问题定义 266

7.8.2 嵌入式循环及基于索引的算法 268

7.8.3 基于分区的算法 271

第8章 序列模式与时间序列 277

8.1 序列模式的数据挖掘 277

8.1.1 基本定义 277

8.1.2 序列模式的发现 279

8.1.3 序列阶段 281

8.2 时序数据库中相似序列的挖掘 288

8.2.1 基于ARMA模型的序列匹配方法 289

8.2.2 基于离散傅里叶变换的时间序列相似性快速查找 291

8.2.3 基于规范变换的查找方法 294

8.3 在数据库中发现具有时态约束的关联规则 298

8.3.1 问题描述 298

8.3.2 带时态约束的关联规则发现算法 299

第9章 开放式的数据挖掘系统 303

9.1 OLEDBForDataMining 303

9.1.1 OLEDBForDataMining简介 303

9.1.2 OLEDBForDataMining编程基础 304

9.2 可预测模型描述语言(PMML) 308

9.2.1 简介 308

9.2.2 一个简单的PMML例子 309

9.3.2 产品目标 310

9.3.1 背景 310

9.3 产品简介 310

9.4 系统结构 311

9.4.1 用于OLAP系统的数据挖掘应用系统结构 311

9.4.2 基于B/S结构的应用框架 313

9.4.3 逻辑模块结构设计 313

9.5 Web服务技术 316

9.6 输入和输出 317

9.6.1 系统输入:OLTP、OLAP及其他 317

9.6.2 利用可视化技术构造可理解的知识展现 317

9.7 应用模式 318

9.8 现状与前景 319

参考文献 320

相关图书
作者其它书籍
返回顶部