数据挖掘与知识发现PDF电子书下载
- 电子书积分:12 积分如何计算积分?
- 作 者:李雄飞,董元方,李军等编著
- 出 版 社:北京:高等教育出版社
- 出版年份:2010
- ISBN:9787040304787
- 页数:304 页
第1章 绪论 1
1.1 引言 1
1.2 KDD与数据挖掘 2
1.2.1 KDD定义 2
1.2.2 KDD过程 3
1.2.3 数据库技术发展与数据挖掘 4
1.3 数据挖掘的对象与环境 5
1.3.1 数据与系统特征 5
1.3.2 数据结构 6
1.3.3 数据库系统 7
1.4 数据挖掘方法与相关领域 9
1.4.1 数据挖掘相关领域 9
1.4.2 粗糙集 10
1.4.3 聚类 10
1.4.4 关联规则 11
1.4.5 决策树 11
1.4.6 模糊集 12
1.4.7 规则归纳 12
1.4.8 进化计算 13
1.5 KDD系统与应用 14
本章小结 16
习题1 16
第2章 关联规则 17
2.1 引言 17
2.2 关联规则基本模型 17
2.2.1 关联规则基本模型 17
2.2.2 Apriori算法 18
2.2.3 LIG算法 21
2.2.4 FP算法 27
2.3 多级关联规则与多维关联规则 30
2.3.1 多级关联规则 30
2.3.2 多维关联规则 32
2.4 关联规则价值衡量与发展 36
2.4.1 规则价值衡量 36
2.4.2 基于约束的关联规则 38
2.4.3 关联规则新进展 39
本章小结 41
习题2 42
第3章 聚类分析 43
3.1 聚类分析简介 43
3.2 聚类分析中的数据类型 45
3.3 划分方法 47
3.3.1 k-均值算法 47
3.3.2 k-中心点算法 48
3.3.3 EM算法 49
3.4 层次方法 51
3.4.1 凝聚的和分裂的层次聚类 51
3.4.2 利用层次方法进行平衡迭代归约和聚类 53
3.4.3 利用代表点聚类 54
3.4.4 采用动态建模技术的层次聚类算法 54
3.5 基于密度的方法 57
3.6 基于网格的方法 59
3.7 基于模型的聚类方法 62
3.8 孤立点分析 63
本章小结 64
习题3 64
第4章 决策树 66
4.1 引言 66
4.2 信息论 66
4.2.1 信息传输与数据挖掘 66
4.2.2 信息论主要概念 67
4.3 ID3算法 69
4.4 决策树的剪枝 76
4.4.1 预剪枝 77
4.4.2 后剪枝 77
4.4.3 决策树的性能评价 80
4.5 决策树算法的改进 80
4.5.1 二叉树决策算法 80
4.5.2 按增益比率估值的方法 81
4.5.3 按分类信息估值的方法 82
4.5.4 按划分距离估值的方法 82
4.6 C4.5算法 83
4.7 CART算法 84
4.8 SLIQ算法 86
4.9 决策树与数据预处理 87
4.9.1 数据概化与约简 87
4.9.2 抽样方法 88
4.9.3 维归约及特征子集的选取 88
4.9.4 冗余特征子集删除 89
4.9.5 离散化处理 90
4.9.6 改变数据结构 90
4.10 算法改进 91
4.10.1 多决策树综合技术 91
4.10.2 决策树的增量学习 92
本章小结 93
习题4 93
第5章 贝叶斯网络 94
5.1 贝叶斯网络基本概念 94
5.2 不确定性推理与联合概率分布 96
5.3 贝叶斯网络中的独立关系 98
5.3.1 条件独立 99
5.3.2 有向分离和条件独立 100
5.3.3 因果影响独立 100
5.3.4 环境独立 101
5.4 贝叶斯网络学习 102
5.4.1 结构学习 102
5.4.2 搜索算法 105
5.4.3 基于约束的方法 107
5.4.4 参数学习 109
5.5 贝叶斯网络分类器 110
5.5.1 朴素贝叶斯网络分类器 111
5.5.2 半朴素贝叶斯分类器与选择贝叶斯分类器 114
5.5.3 树增广朴素贝叶斯网络分类器 115
5.5.4 广义朴素贝叶斯网络分类器 117
本章小结 118
习题5 118
第6章 人工神经网络 120
6.1 人工神经元及人工神经网络模型 120
6.1.1 M-P模型 120
6.1.2 人工神经元的形式化描述 121
6.1.3 神经网络的分类 122
6.1.4 人工神经网络的学习方式 123
6.2 前向神经网络 123
6.2.1 感知器 123
6.2.2 多层前向神经网络的BP算法 124
6.2.3 径向基函数神经网络 129
6.3 反馈神经网络 130
6.3.1 前向神经网络与反馈神经网络的比较 130
6.3.2 反馈神经网络模型 130
6.3.3 离散型Hopfield神经网络 131
6.3.4 连续型Hopfield神经网络 133
6.3.5 Boltzmann机 134
6.4 自组织竞争神经网络模型 135
6.5 基于人工神经网络的数据挖掘 138
本章小结 138
习题6 138
第7章 支持向量机 139
7.1 学习机器泛化性能的界 139
7.1.1 VC维 140
7.1.2 Rn中有向超平面对点的打散 141
7.1.3 VC维和参数个数 141
7.1.4 通过最小化h最小化界 142
7.1.5 实例 142
7.1.6 结构风险最小化 143
7.2 线性支持向量机 143
7.2.1 可分情形 143
7.2.2 Karush-Kuhn-Tucker条件 145
7.2.3 测试 145
7.2.4 非可分情形 146
7.3 非线性支持向量机 147
7.3.1 硬间隔非线性支持向量机 148
7.3.2 软间隔非线性支持向量机 148
7.3.3 v-SVM分类器 149
7.3.4 处理不平衡数据的加权SVM 150
7.3.5 多类别SVM分类 150
7.3.6 Mercer条件及Mercer定理 151
7.3.7 非线性支持向量机实例 151
7.4 支持向量机的VC维 152
7.5 支持向量机应用 152
7.5.1 手写体数字识别 152
7.5.2 文本分类 153
7.5.3 生物信息学中的SVM应用 154
本章小结 156
习题7 156
第8章 粗糙集 157
8.1 近似空间 157
8.1.1 近似空间与不可分辨关系 157
8.1.2 知识与知识库 158
8.2 近似与粗糙集 160
8.2.1 近似与粗糙集的基本概念 160
8.2.2 粗糙集的基本性质 161
8.3 粗糙集的特征描述 162
8.3.1 近似精度 162
8.3.2 粗糙集隶属函数 163
8.3.3 拓扑特征 164
8.4 知识约简 164
8.4.1 约简与核 164
8.4.2 相对约简和相对核 165
8.5 知识的依赖性 167
8.6 信息系统 168
8.6.1 信息系统的定义 168
8.6.2 分辨矩阵与分辨函数 169
8.7 决策表 170
8.8 决策规则 172
8.9 扩展的粗糙集模型 173
8.9.1 可变精度粗糙集模型 173
8.9.2 相似模型 174
本章小结 175
习题8 175
第9章 模糊集 177
9.1 模糊集定义与隶属函数 177
9.1.1 模糊集定义与隶属函数 177
9.1.2 模糊集合的表示法 179
9.2 模糊集的基本运算 180
9.3 分解定理与扩展原理 182
9.4 模糊集的特征 184
9.5 模糊集的度量 185
9.5.1 模糊度 185
9.5.2 模糊集间的距离 186
9.5.3 模糊集的贴近度 187
9.6 模糊关系 187
9.6.1 模糊关系定义 187
9.6.2 模糊关系的运算与性质 188
9.6.3 模糊等价关系与模糊相似关系 190
9.7 模糊聚类分析 190
9.7.1 模糊划分 191
9.7.2 模糊相似系数的标定方法 191
9.7.3 模糊聚类分析 193
9.7.4 传递闭包法 195
9.7.5 最大树法 197
9.7.6 模糊C-均值聚类 198
9.8 模糊集与粗糙集 200
本章小节 201
习题9 201
第10章 模型选择与模型评估 202
10.1 模型的过拟合 202
10.2 没有天生优越的分类器 204
10.3 模型、模型选择和模型评估 207
10.4 简单划分和交叉验证 210
10.5 自助法 211
10.6 Occam剃刀 211
10.7 最小描述长度准则 212
10.8 信息准则 213
10.8.1 Akaike信息准则 214
10.8.2 Bayesian信息准则 214
10.9 比较分类器的方法 215
10.9.1 估计准确率的置信区间 215
10.9.2 比较两个模型的性能 216
10.9.3 比较两种分类法的性能 217
10.10 聚类评估 218
10.10.1 假设检验 219
10.10.2 聚类评估中的假设检验 221
10.10.3 相对准则 224
本章小结 224
习题10 224
第11章 数据预处理与可视化技术 225
11.1 数据清理 225
11.1.1 填补空缺值 225
11.1.2 消除噪声数据 226
11.1.3 实现数据一致性 227
11.2 数据集成与转换 227
11.2.1 数据集成 227
11.2.2 数据转换 228
11.3 数据归约与浓缩 229
11.3.1 数据立方体聚集 229
11.3.2 维归约 230
11.3.3 数据压缩 230
11.3.4 数值归约 232
11.4 概念分层 235
11.4.1 概念分层的概念 235
11.4.2 概念分层的类型 236
11.4.3 数值数据的概念分层与离散化 236
11.4.4 分类数据的概念分层 238
11.5 可视化技术概述 238
11.5.1 可视化技术分类 239
11.5.2 可视化技术在数据挖掘中的应用 241
11.6 过程可视化 243
11.7 数据可视化 245
11.7.1 折线图 245
11.7.2 复合饼图 245
11.7.3 散点图 247
11.7.4 盒图 247
11.7.5 平行坐标法 248
11.7.6 圆环分段表示 249
11.8 结果可视化 250
11.8.1 关联规则 251
11.8.2 分类 252
11.8.3 聚类 255
本章小结 255
习题11 256
第12章 数据挖掘工具与产品 257
12.1 数据挖掘标准 257
12.1.1 数据挖掘标准化概述 257
12.1.2 数据挖掘过程标准 258
12.1.3 数据挖掘接口标准 259
12.1.4 数据挖掘的语言标准 261
12.1.5 数据挖掘的Web标准 265
12.1.6 数据挖掘标准的应用与未来发展趋势 266
12.2 数据挖掘工具的介绍 268
12.2.1 数据挖掘工具发展过程概述 268
12.2.2 数据挖掘工具简介 269
12.2.3 WEKA 270
12.2.4 SPSS 283
12.3 数据挖掘产品分析 292
12.3.1 通用数据挖掘产品 292
12.3.2 专用挖掘产品 293
本章小结 294
习题12 294
附录 中英文术语对照 295
参考文献 301
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《穿越数据的迷宫 数据管理执行指南》Laura Sebastian-Coleman 2020
- 《大数据环境下的信息管理方法技术与服务创新丛书 俄罗斯档案事业改革与发展研究》徐胡乡责编;肖秋会 2019
- 《Access数据库系统设计与应用教程》李勇帆,廖瑞华主编 2019
- 《POPs知多少之溴系阻燃剂》生态环境部对外合作与交流中心 2019
- 《全国高等中医药行业“十三五”创新教材 中医药学概论》翟华强 2019
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《习近平总书记教育重要论述讲义》本书编写组 2020
- 《办好人民满意的教育 全国教育满意度调查报告》(中国)中国教育科学研究院 2019
- 《高等数学试题与详解》西安电子科技大学高等数学教学团队 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《教育学考研应试宝典》徐影主编 2019
- 《语文教育教学实践探索》陈德收 2018
- 《家庭音乐素养教育》刘畅 2018