《数据挖掘与知识发现》PDF下载

  • 购买积分:12 如何计算积分?
  • 作  者:李雄飞,董元方,李军等编著
  • 出 版 社:北京:高等教育出版社
  • 出版年份:2010
  • ISBN:9787040304787
  • 页数:304 页
图书介绍:本书是普通高等教育“十一五”国家级规划教材。第二版在保持第一版内容特色的基础上,更强调理论和实践相结合,并把最新的数据挖掘理论和技术纳入其中。主要内容包括:绪论、关联规则、聚类分析、决策树、贝叶斯网络、人工神经网络、支持向量机、粗糙集、模糊集、模型选择与模型评估、数据预处理与可视化技术、数据挖掘工具与产品。

第1章 绪论 1

1.1 引言 1

1.2 KDD与数据挖掘 2

1.2.1 KDD定义 2

1.2.2 KDD过程 3

1.2.3 数据库技术发展与数据挖掘 4

1.3 数据挖掘的对象与环境 5

1.3.1 数据与系统特征 5

1.3.2 数据结构 6

1.3.3 数据库系统 7

1.4 数据挖掘方法与相关领域 9

1.4.1 数据挖掘相关领域 9

1.4.2 粗糙集 10

1.4.3 聚类 10

1.4.4 关联规则 11

1.4.5 决策树 11

1.4.6 模糊集 12

1.4.7 规则归纳 12

1.4.8 进化计算 13

1.5 KDD系统与应用 14

本章小结 16

习题1 16

第2章 关联规则 17

2.1 引言 17

2.2 关联规则基本模型 17

2.2.1 关联规则基本模型 17

2.2.2 Apriori算法 18

2.2.3 LIG算法 21

2.2.4 FP算法 27

2.3 多级关联规则与多维关联规则 30

2.3.1 多级关联规则 30

2.3.2 多维关联规则 32

2.4 关联规则价值衡量与发展 36

2.4.1 规则价值衡量 36

2.4.2 基于约束的关联规则 38

2.4.3 关联规则新进展 39

本章小结 41

习题2 42

第3章 聚类分析 43

3.1 聚类分析简介 43

3.2 聚类分析中的数据类型 45

3.3 划分方法 47

3.3.1 k-均值算法 47

3.3.2 k-中心点算法 48

3.3.3 EM算法 49

3.4 层次方法 51

3.4.1 凝聚的和分裂的层次聚类 51

3.4.2 利用层次方法进行平衡迭代归约和聚类 53

3.4.3 利用代表点聚类 54

3.4.4 采用动态建模技术的层次聚类算法 54

3.5 基于密度的方法 57

3.6 基于网格的方法 59

3.7 基于模型的聚类方法 62

3.8 孤立点分析 63

本章小结 64

习题3 64

第4章 决策树 66

4.1 引言 66

4.2 信息论 66

4.2.1 信息传输与数据挖掘 66

4.2.2 信息论主要概念 67

4.3 ID3算法 69

4.4 决策树的剪枝 76

4.4.1 预剪枝 77

4.4.2 后剪枝 77

4.4.3 决策树的性能评价 80

4.5 决策树算法的改进 80

4.5.1 二叉树决策算法 80

4.5.2 按增益比率估值的方法 81

4.5.3 按分类信息估值的方法 82

4.5.4 按划分距离估值的方法 82

4.6 C4.5算法 83

4.7 CART算法 84

4.8 SLIQ算法 86

4.9 决策树与数据预处理 87

4.9.1 数据概化与约简 87

4.9.2 抽样方法 88

4.9.3 维归约及特征子集的选取 88

4.9.4 冗余特征子集删除 89

4.9.5 离散化处理 90

4.9.6 改变数据结构 90

4.10 算法改进 91

4.10.1 多决策树综合技术 91

4.10.2 决策树的增量学习 92

本章小结 93

习题4 93

第5章 贝叶斯网络 94

5.1 贝叶斯网络基本概念 94

5.2 不确定性推理与联合概率分布 96

5.3 贝叶斯网络中的独立关系 98

5.3.1 条件独立 99

5.3.2 有向分离和条件独立 100

5.3.3 因果影响独立 100

5.3.4 环境独立 101

5.4 贝叶斯网络学习 102

5.4.1 结构学习 102

5.4.2 搜索算法 105

5.4.3 基于约束的方法 107

5.4.4 参数学习 109

5.5 贝叶斯网络分类器 110

5.5.1 朴素贝叶斯网络分类器 111

5.5.2 半朴素贝叶斯分类器与选择贝叶斯分类器 114

5.5.3 树增广朴素贝叶斯网络分类器 115

5.5.4 广义朴素贝叶斯网络分类器 117

本章小结 118

习题5 118

第6章 人工神经网络 120

6.1 人工神经元及人工神经网络模型 120

6.1.1 M-P模型 120

6.1.2 人工神经元的形式化描述 121

6.1.3 神经网络的分类 122

6.1.4 人工神经网络的学习方式 123

6.2 前向神经网络 123

6.2.1 感知器 123

6.2.2 多层前向神经网络的BP算法 124

6.2.3 径向基函数神经网络 129

6.3 反馈神经网络 130

6.3.1 前向神经网络与反馈神经网络的比较 130

6.3.2 反馈神经网络模型 130

6.3.3 离散型Hopfield神经网络 131

6.3.4 连续型Hopfield神经网络 133

6.3.5 Boltzmann机 134

6.4 自组织竞争神经网络模型 135

6.5 基于人工神经网络的数据挖掘 138

本章小结 138

习题6 138

第7章 支持向量机 139

7.1 学习机器泛化性能的界 139

7.1.1 VC维 140

7.1.2 Rn中有向超平面对点的打散 141

7.1.3 VC维和参数个数 141

7.1.4 通过最小化h最小化界 142

7.1.5 实例 142

7.1.6 结构风险最小化 143

7.2 线性支持向量机 143

7.2.1 可分情形 143

7.2.2 Karush-Kuhn-Tucker条件 145

7.2.3 测试 145

7.2.4 非可分情形 146

7.3 非线性支持向量机 147

7.3.1 硬间隔非线性支持向量机 148

7.3.2 软间隔非线性支持向量机 148

7.3.3 v-SVM分类器 149

7.3.4 处理不平衡数据的加权SVM 150

7.3.5 多类别SVM分类 150

7.3.6 Mercer条件及Mercer定理 151

7.3.7 非线性支持向量机实例 151

7.4 支持向量机的VC维 152

7.5 支持向量机应用 152

7.5.1 手写体数字识别 152

7.5.2 文本分类 153

7.5.3 生物信息学中的SVM应用 154

本章小结 156

习题7 156

第8章 粗糙集 157

8.1 近似空间 157

8.1.1 近似空间与不可分辨关系 157

8.1.2 知识与知识库 158

8.2 近似与粗糙集 160

8.2.1 近似与粗糙集的基本概念 160

8.2.2 粗糙集的基本性质 161

8.3 粗糙集的特征描述 162

8.3.1 近似精度 162

8.3.2 粗糙集隶属函数 163

8.3.3 拓扑特征 164

8.4 知识约简 164

8.4.1 约简与核 164

8.4.2 相对约简和相对核 165

8.5 知识的依赖性 167

8.6 信息系统 168

8.6.1 信息系统的定义 168

8.6.2 分辨矩阵与分辨函数 169

8.7 决策表 170

8.8 决策规则 172

8.9 扩展的粗糙集模型 173

8.9.1 可变精度粗糙集模型 173

8.9.2 相似模型 174

本章小结 175

习题8 175

第9章 模糊集 177

9.1 模糊集定义与隶属函数 177

9.1.1 模糊集定义与隶属函数 177

9.1.2 模糊集合的表示法 179

9.2 模糊集的基本运算 180

9.3 分解定理与扩展原理 182

9.4 模糊集的特征 184

9.5 模糊集的度量 185

9.5.1 模糊度 185

9.5.2 模糊集间的距离 186

9.5.3 模糊集的贴近度 187

9.6 模糊关系 187

9.6.1 模糊关系定义 187

9.6.2 模糊关系的运算与性质 188

9.6.3 模糊等价关系与模糊相似关系 190

9.7 模糊聚类分析 190

9.7.1 模糊划分 191

9.7.2 模糊相似系数的标定方法 191

9.7.3 模糊聚类分析 193

9.7.4 传递闭包法 195

9.7.5 最大树法 197

9.7.6 模糊C-均值聚类 198

9.8 模糊集与粗糙集 200

本章小节 201

习题9 201

第10章 模型选择与模型评估 202

10.1 模型的过拟合 202

10.2 没有天生优越的分类器 204

10.3 模型、模型选择和模型评估 207

10.4 简单划分和交叉验证 210

10.5 自助法 211

10.6 Occam剃刀 211

10.7 最小描述长度准则 212

10.8 信息准则 213

10.8.1 Akaike信息准则 214

10.8.2 Bayesian信息准则 214

10.9 比较分类器的方法 215

10.9.1 估计准确率的置信区间 215

10.9.2 比较两个模型的性能 216

10.9.3 比较两种分类法的性能 217

10.10 聚类评估 218

10.10.1 假设检验 219

10.10.2 聚类评估中的假设检验 221

10.10.3 相对准则 224

本章小结 224

习题10 224

第11章 数据预处理与可视化技术 225

11.1 数据清理 225

11.1.1 填补空缺值 225

11.1.2 消除噪声数据 226

11.1.3 实现数据一致性 227

11.2 数据集成与转换 227

11.2.1 数据集成 227

11.2.2 数据转换 228

11.3 数据归约与浓缩 229

11.3.1 数据立方体聚集 229

11.3.2 维归约 230

11.3.3 数据压缩 230

11.3.4 数值归约 232

11.4 概念分层 235

11.4.1 概念分层的概念 235

11.4.2 概念分层的类型 236

11.4.3 数值数据的概念分层与离散化 236

11.4.4 分类数据的概念分层 238

11.5 可视化技术概述 238

11.5.1 可视化技术分类 239

11.5.2 可视化技术在数据挖掘中的应用 241

11.6 过程可视化 243

11.7 数据可视化 245

11.7.1 折线图 245

11.7.2 复合饼图 245

11.7.3 散点图 247

11.7.4 盒图 247

11.7.5 平行坐标法 248

11.7.6 圆环分段表示 249

11.8 结果可视化 250

11.8.1 关联规则 251

11.8.2 分类 252

11.8.3 聚类 255

本章小结 255

习题11 256

第12章 数据挖掘工具与产品 257

12.1 数据挖掘标准 257

12.1.1 数据挖掘标准化概述 257

12.1.2 数据挖掘过程标准 258

12.1.3 数据挖掘接口标准 259

12.1.4 数据挖掘的语言标准 261

12.1.5 数据挖掘的Web标准 265

12.1.6 数据挖掘标准的应用与未来发展趋势 266

12.2 数据挖掘工具的介绍 268

12.2.1 数据挖掘工具发展过程概述 268

12.2.2 数据挖掘工具简介 269

12.2.3 WEKA 270

12.2.4 SPSS 283

12.3 数据挖掘产品分析 292

12.3.1 通用数据挖掘产品 292

12.3.2 专用挖掘产品 293

本章小结 294

习题12 294

附录 中英文术语对照 295

参考文献 301