数据挖掘原理与算法PDF电子书下载
- 电子书积分:12 积分如何计算积分?
- 作 者:毛国君,段立娟编著
- 出 版 社:北京:清华大学出版社
- 出版年份:2016
- ISBN:9787302415817
- 页数:334 页
第1章 绪论 1
1.1 数据挖掘技术的产生与发展 2
1.1.1 数据挖掘技术的商业需求分析 2
1.1.2 数据挖掘产生的技术背景分析 3
1.1.3 大数据时代的数据挖掘技术需求分析 5
1.2 数据挖掘研究的发展趋势 7
1.3 数据挖掘概念 10
1.3.1 从商业角度看数据挖掘技术 10
1.3.2 数据挖掘的技术含义 10
1.3.3 数据挖掘研究的理论基础 12
1.4 数据挖掘技术的分类问题 13
1.5 数据挖掘常用的知识表示模式与方法 15
1.5.1 广义知识挖掘 15
1.5.2 关联知识挖掘 17
1.5.3 类知识挖掘 17
1.5.4 预测型知识挖掘 22
1.5.5 特异型知识挖掘 23
1.6 不同数据存储形式下的数据挖掘问题 24
1.6.1 事务数据库中的数据挖掘 24
1.6.2 关系型数据库中的数据挖掘 25
1.6.3 数据仓库中的数据挖掘 26
1.6.4 在关系模型基础上发展的新型数据库中的数据挖掘 27
1.6.5 面向应用的新型数据源中的数据挖掘 27
1.6.6 Web数据源中的数据挖掘 27
1.7 粗糙集方法及其在数据挖掘中的应用 29
1.7.1 粗糙集的一些重要概念 29
1.7.2 粗糙集应用举例 31
1.7.3 粗糙集方法在KDD中的应用范围 32
1.8 数据挖掘的应用分析 33
1.8.1 数据挖掘与CRM 33
1.8.2 数据挖掘与社会网络 34
1.8.3 数据挖掘应用的成功案例分析 35
1.9 本章小结和文献注释 37
习题1 42
第2章 知识发现过程与应用结构 44
2.1 知识发现的基本过程 44
2.1.1 数据抽取与集成技术要点 46
2.1.2 数据清洗与预处理技术要点 46
2.1.3 数据的选择与整理技术要点 47
2.1.4 数据挖掘技术要点 47
2.1.5 模式评估技术要点 47
2.2 数据库中的知识发现处理过程模型 48
2.2.1 阶梯处理过程模型 48
2.2.2 螺旋处理过程模型 49
2.2.3 以用户为中心的处理模型 50
2.2.4 联机KDD模型 52
2.2.5 支持多数据源多知识模式的KDD处理模型 54
2.3 知识发现软件或工具的发展 57
2.3.1 独立的知识发现软件 57
2.3.2 横向的知识发现工具集 57
2.3.3 纵向的知识发现解决方案 58
2.3.4 KDD系统介绍 58
2.4 知识发现项目的过程化管理 60
2.5 数据挖掘语言介绍 62
2.5.1 数据挖掘语言的分类 62
2.5.2 数据挖掘查询语言 63
2.5.3 数据挖掘建模语言 64
2.5.4 通用数据挖掘语言 65
2.5.5 DMQL挖掘查询语言介绍 66
2.6 本章小结和文献注释 69
习题2 71
第3章 关联规则挖掘理论和算法 72
3.1 基本概念与解决方法 72
3.2 经典的频繁项目集生成算法分析 73
3.2.1 项目集空间理论 73
3.2.2 经典的发现频繁项目集算法 74
3.2.3 关联规则生成算法 76
3.3 Apriori算法的性能瓶颈问题 78
3.4 Apriori的改进算法 79
3.4.1 基于数据分割的方法 79
3.4.2 基于散列的方法 80
3.4.3 基于采样的方法 81
3.5 项目集空间理论的发展 82
3.5.1 Close算法 83
3.5.2 FP-tree算法 87
3.6 项目集格空间和它的操作 90
3.7 基于项目集操作的关联规则挖掘算法 92
3.7.1 关联规则挖掘空间 92
3.7.2 三个实用算子 92
3.7.3 最大频繁项目集格的生成算法 94
3.7.4 ISS-DM算法执行示例 94
3.8 改善关联规则挖掘质量问题 95
3.8.1 用户主观层面 95
3.8.2 系统客观层面 96
3.9 约束数据挖掘问题 96
3.9.1 约束在数据挖掘中的作用 96
3.9.2 约束的类型 97
3.10 时态约束关联规则挖掘 100
3.11 关联规则挖掘中的一些更深入的问题 103
3.11.1 多层次关联规则挖掘 103
3.11.2 多维关联规则挖掘 104
3.11.3 数量关联规则挖掘 105
3.12 数量关联规则挖掘方法 106
3.12.1 数量关联规则挖掘问题 106
3.12.2 数量关联规则的分类 107
3.12.3 数量关联规则挖掘的一般步骤 108
3.12.4 数值属性离散化问题及算法 111
3.13 本章小结和文献注释 114
习题3 116
第4章 分类方法 119
4.1 分类的基本概念与步骤 120
4.2 基于距离的分类算法 122
4.3 决策树分类方法 125
4.3.1 决策树基本算法概述 126
4.3.2 ID3算法 128
4.3.3 C4.5 算法 133
4.4 贝叶斯分类 138
4.4.1 贝叶斯定理 138
4.4.2 朴素贝叶斯分类 138
4.4.3 EM算法 141
4.5 规则归纳 145
4.5.1 AQ算法 145
4.5.2 CN2算法 149
4.5.3 FOIL算法 156
4.6 与分类有关的其他问题 160
4.6.1 分类数据预处理 160
4.6.2 分类器性能的表示与评估 161
4.7 本章小结和文献注释 163
习题4 165
第5章 聚类方法 169
5.1 概述 169
5.1.1 聚类分析在数据挖掘中的应用 171
5.1.2 聚类分析算法的概念与基本分类 171
5.1.3 距离与相似性的度量 174
5.2 划分聚类方法 177
5.2.1 k-平均算法 177
5.2.2 PAM 180
5.2.3 其他方法 184
5.3 层次聚类方法 184
5.3.1 AGNES算法 185
5.3.2 DIANA算法 186
5.3.3 其他聚类方法 188
5.4 密度聚类方法 189
5.5 其他聚类方法 193
5.5.1 STING算法 193
5.5.2 SOM算法 194
5.5.3 COBWEB算法 194
5.5.4 模糊聚类算法FCM 195
5.6 本章小结和文献注释 195
习题5 197
第6章 时间序列和序列模式挖掘 199
6.1 时间序列及其应用 199
6.2 时间序列预测的常用方法 200
6.2.1 确定性时间序列预测方法 200
6.2.2 随机时间序列预测方法 201
6.2.3 其他方法 201
6.3 基于ARMA模型的序列匹配方法 201
6.3.1 基本概念 201
6.3.2 利用基本概念建立模型 202
6.3.3 构造判别函数 203
6.4 基于离散傅里叶变换的时间序列相似性查找 204
6.4.1 完全匹配 205
6.4.2 子序列匹配 206
6.5 基于规范变换的查找方法 208
6.5.1 基本概念 209
6.5.2 查找方法 209
6.6 序列挖掘 211
6.6.1 基本概念 212
6.6.2 数据源的形式 212
6.6.3 序列模式挖掘的一般步骤 214
6.7 AprioriAll算法 215
6.8 AprioriSome算法 218
6.9 GSP算法 222
6.1 0本章小结和文献注释 224
习题6 227
第7章 Web挖掘技术 229
7.1 Web挖掘的意义 229
7.2 Web挖掘的分类 230
7.3 Web挖掘的含义 232
7.3.1 Web挖掘与信息检索 232
7.3.2 Web挖掘与信息抽取 232
7.4 Web挖掘的数据来源 233
7.4.1 服务器日志数据 233
7.4.2 在线市场数据 234
7.4.3 Web页面 234
7.4.4 Web页面超链接关系 235
7.4.5 其他信息 235
7.5 Web内容挖掘方法 235
7.5.1 爬虫与Web内容挖掘 236
7.5.2 虚拟的Web视图 236
7.5.3 个性化与Web内容挖掘 237
7.5.4 对Web页面内文本信息的挖掘 237
7.5.5 对Web页面内多媒体信息挖掘 238
7.5.6 Web页面内容的预处理 238
7.6 Web访问信息挖掘方法 239
7.6.1 Web访问信息挖掘的特点 239
7.6.2 Web访问信息挖掘的意义 241
7.6.3 Web访问信息挖掘的数据源 242
7.6.4 Web访问信息挖掘的一般过程 245
7.6.5 Web访问信息挖掘的数据清理 246
7.6.6 用户识别方法 247
7.6.7 会话识别方法 249
7.6.8 其他预处理技术 252
7.6.9 Web访问挖掘的应用方法 252
7.6.10 Web访问信息挖掘的要素构成 254
7.6.11 Web访问信息挖掘应用 255
7.7 Web结构挖掘方法 264
7.7.1 页面等级(分级)的评价方法 264
7.7.2 PageRank算法 265
7.7.3 权威页面和中心页面 268
7.7.4 Web站点结构的预处理 269
7.8 本章小结和文献注释 271
习题7 275
第8章 空间挖掘 277
8.1 引言 277
8.2 空间数据概要 278
8.2.1 空间数据的复杂性特征 278
8.2.2 空间查询问题 279
8.2.3 空间数据结构 280
8.2.4 专题地图 284
8.3 空间数据挖掘基础 284
8.4 空间统计学 286
8.5 泛化与特化 287
8.5.1 逐步求精 287
8.5.2 泛化 287
8.5.3 最临近方法 289
8.5.4 统计信息网格方法 289
8.6 空间规则 291
8.7 空间分类算法 293
8.7.1 ID3扩展 293
8.7.2 空间决策树 293
8.8 空间聚类算法 294
8.8.1 基于随机搜索的聚类方法CLARANS扩展 295
8.8.2 大型空间数据库基于距离分布的聚类算法DBCLASD 296
8.8.3 BANG 297
8.8.4 小波聚类 297
8.8.5 近似值 297
8.9 空间挖掘的其他问题 299
8.10 空间数据挖掘原型系统介绍 302
8.11 空间数据挖掘的研究现状 304
8.12 空间数据挖掘的研究与发展方向 305
8.13 空间数据挖掘与相关学科的关系 307
8.13.1 空间数据挖掘与空间数据库 307
8.13.2 空间数据挖掘与空间数据仓库 308
8.13.3 空间数据挖掘与空间联机分析处理 308
8.13.4 空间数据挖掘与地理信息系统 309
8.14 数字地球 310
8.15 本章小结和文献注释 310
习题8 313
参考文献 314
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《穿越数据的迷宫 数据管理执行指南》Laura Sebastian-Coleman 2020
- 《《原节子》日本国民女演员传记 比电影还传奇的一生 折射时代变迁》徐辰 2018
- 《大数据环境下的信息管理方法技术与服务创新丛书 俄罗斯档案事业改革与发展研究》徐胡乡责编;肖秋会 2019
- 《Access数据库系统设计与应用教程》李勇帆,廖瑞华主编 2019
- 《市政工程基础》杨岚编著 2009
- 《家畜百宝 猪、牛、羊、鸡的综合利用》山西省商业厅组织技术处编著 1959
- 《《道德经》200句》崇贤书院编著 2018
- 《高级英语阅读与听说教程》刘秀梅编著 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《看图自学吉他弹唱教程》陈飞编著 2019
- 《法语词汇认知联想记忆法》刘莲编著 2020
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《国家社科基金项目申报规范 技巧与案例 第3版 2020》文传浩,夏宇编著 2019
- 《流体力学》张扬军,彭杰,诸葛伟林编著 2019
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019