《数据挖掘教程》PDF下载

  • 购买积分:11 如何计算积分?
  • 作  者:邓纳姆(MargaretH.Dunham)著;郭崇慧,田凤占,靳晓明等译;陆玉昌审校
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2005
  • ISBN:7302105332
  • 页数:280 页
图书介绍:本书全面系统地介绍了各种数据挖掘的基本概念、方法和算法。全书的四部分构成:第一部分是导论,全面介绍了数据挖掘的背景信息、相关概念及使用的主要技术;第二部分是核心算法,系统深入地描述了用于分类、聚类和关联规则的常用算法;第三部分是高级课题,主要介绍Web挖掘、空间数据挖掘、时序数据和序列数据挖掘;第四部分是附录,介绍了目前市场上流行的一些数据挖掘工具产品。本书适宜作为计算机专业高年级本科生研究生教材,也可作为相关领域研究人员的参考书。

第1部分 导论 3

第1章 概述 3

目录 3

1.1 基本数据挖掘任务 5

1.1.1 分类 5

1.1.2 回归 5

1.1.3 时间序列分析 6

1.1.4 预测 6

1.1.5 聚类 7

1.1.6 汇总 7

1.1.7 关联规则 7

1.2 数据挖掘与数据库中的知识发现 8

1.1.8 序列发现 8

1.2.1 数据挖掘的发展 10

1.3 数据挖掘问题 12

1.4 数据挖掘度量 13

1.5 数据挖掘的社会影响 14

1.6 从数据库观点看数据挖掘 14

1.7 数据挖掘的未来发展 15

1.8 练习 16

1.9 参考文献注释 17

第2章 相关概念 19

2.1 数据库/OLTP系统 19

2.2 模糊集和模糊逻辑 21

2.3 信息检索 23

2.4 决策支持系统 25

2.5 维数据建模 25

2.5.1 多维模式 27

2.5.2 索引 30

2.6 数据仓储 31

2.7 OLAP 34

2.8 Web搜索引擎 35

2.9 统计学 36

2.10 机器学习 37

2.11 模式匹配 38

2.14 参考文献注释 39

2.13 练习 39

2.12 小结 39

第3章 数据挖掘技术 41

3.1 引言 41

3.2 数据挖掘的统计方法 42

3.2.1 点估计 42

3.2.2 基于汇总的模型 45

3.2.3 贝叶斯定理 46

3.2.4 假设检验 48

3.2.5 回归和相关 49

3.3 相似性度量 50

3.4 决策树 51

3.5 神经网络 53

3.5.1 激励函数 56

3.6 遗传算法 57

3.7 练习 60

3.8 参考文献注释 61

第2部分 核心课题 65

第4章 分类 65

4.1 引言 65

4.1.1 分类中的问题 67

4.2 基于统计的算法 69

4.2.1 回归 69

4.2.2 贝叶斯分类 74

4.3.1 简单方法 76

4.3 基于距离的算法 76

4.3.2 K最近邻 77

4.4 基于决策树的算法 79

4.4.1 ID3 83

4.4.2 C4.5和C5.0 85

4.4.3 CART 87

4.4.4 可伸缩的决策树技术 88

4.5 基于神经网络的算法 88

4.5.1 传播 90

4.5.2 神经网络有指导学习 91

4.5.3 径向基函数网络 95

4.5.4 感知器 96

4.6 基于规则的算法 96

4.6.1 从决策树生成规则 97

4.6.2 从神经网络生成规则 98

4.6.3 不用决策树或神经网络生成规则 98

4.7 组合技术 101

4.8 小结 103

4.9 练习 103

4.10 参考文献注释 104

第5章 聚类 107

5.1 引言 107

5.2 相似性和距离度量 110

5.3 异常点 111

5.4 层次算法 112

5.4.1 凝聚算法 113

5.4.2 分裂聚类 117

5.5 划分算法 118

5.5.1 最小生成树 118

5.5.2 平方误差聚类算法 119

5.5.3 K均值聚类 120

5.5.4 最近邻算法 121

5.5.5 PAM算法 122

5.5.6 结合能量算法 125

5.5.7 基于遗传算法的聚类 125

5.5.8 基于神经网络的聚类 126

5.6 大型数据库聚类 128

5.6.1 BIRCH 129

5.6.2 DBSCAN 130

5.6.3 CURE算法 132

5.7 对类别属性进行聚类 135

5.8 比较 137

5.9 练习 138

5.10 参考文献注释 138

第6章 关联规则 141

6.1 引言 141

6.2 大项目集 144

6.3 基本算法 145

6.3.1 Apriori算法 145

6.3.2 抽样算法 149

6.3.3 划分 152

6.4.1 数据并行 154

6.4 并行和分布式算法 154

6.4.2 任务并行 155

6.5 方法比较 157

6.6 增量规则 158

6.7 高级关联规则技术 159

6.7.1 泛化关联规则 159

6.7.2 多层关联规则 160

6.7.3 数量关联规则 160

6.7.4 使用多个最小支持度 161

6.7.5 相关规则 162

6.8 度量规则的质量 162

6.10 参考文献注释 164

6.9 练习 164

第3部分 高级课题 169

第7章 Web挖掘 169

7.1 引言 169

7.2 Web内容挖掘 170

7.2.1 爬虫 171

7.2.2 Harvest系统 174

7.2.3 虚拟Web视图 174

7.2.4 个性化 175

7.3 Web结构挖掘 176

7.3.1 PageRank 177

7.3.2 Clever 177

7.4 Web使用挖掘 178

7.4.1 预处理 179

7.4.2 数据结构 181

7.4.3 模式发现 182

7.4.4 模式分析 187

7.5 练习 188

7.6 参考文献注释 188

第8章 空间数据挖掘 190

8.1 引言 190

8.2 空间数据概述 191

8.2.1 空间查询 191

8.2.2 空间数据结构 191

8.3 空间数据挖掘原语 195

8.2.3 主题地图 195

8.2.4 图像数据库 195

8.4 般化和特殊化 196

8.4.1 渐进求精 196

8.4.2 一般化 197

8.4.3 最近邻 199

8.4.4 STING 199

8.5 空间规则 201

8.5.1 空间关联规则 201

8.6 空间分类算法 203

8.6.1 对ID3的扩展 203

8.6.2 空间决策树 203

8.7 空间聚类算法 204

8.7.1 对CLARANS的扩展 205

8.7.2 SD(CLARANS) 206

8.7.3 DBCLASD 206

8.7.4 BANG 207

8.7.5 WaveCluster 208

8.7.6 近似 208

8.8 练习 209

8.9 参考文献注释 209

第9章 时序数据挖掘 211

9.1 引言 211

9.2 时序事件建模 213

9.3.1 时间序列分析 217

9.3 时间序列 217

9.3.2 趋势分析 218

9.3.3 变换 219

9.3.4 相似性 219

9.3.5 预测 220

9.4 模式检测 221

9.4.1 串匹配 222

9.5 时序序列 224

9.5.1 AprioriAll 225

9.5.2 SPADE 226

9.5.3 一般化 227

9.6 时序关联规则 229

9.5.4 特征抽取 229

9.6.1 事务间关联规则 230

9.6.2 情节规则 230

9.6.3 趋势依赖 231

9.6.4 序列关联规则 233

9.6.5 日历关联规则 233

9.7 练习 234

9.8 参考文献注释 234

附录A 数据挖掘产品 236

A.1 参考文献注释 252

附录B 参考文献 253

词汇表 268