计算机科学丛书 数据挖掘 概念与技术 原书第3版PDF电子书下载
- 电子书积分:15 积分如何计算积分?
- 作 者:(美)韩家炜(Han,J.)等著;范明,孟小峰译
- 出 版 社:北京:机械工业出版社
- 出版年份:2012
- ISBN:9787111391401
- 页数:468 页
第1章 引论 1
1. 1为什么进行数据挖掘 1
1.1.1迈向信息时代 1
1.1.2数据挖掘是信息技术的进化 2
1.2什么是数据挖掘 4
1.3可以挖掘什么类型的数据 6
1.3.1数据库数据 6
1.3.2数据仓库 7
1.3.3事务数据 9
1.3.4其他类型的数据 9
1.4可以挖掘什么类型的模式 10
1.4.1类/概念描述:特征化与区分 10
1.4.2挖掘频繁模式、关联和相关性 11
1.4.3用于预测分析的分类与回归 12
1.4.4聚类分析 13
1.4.5离群点分析 14
1.4.6所有模式都是有趣的吗 14
1.5使用什么技术 15
1.5. 1统计学 15
1.5.2机器学习 16
1.5.3数据库系统与数据仓库 17
1.5.4信息检索 17
1.6面向什么类型的应用 18
1.6.1商务智能 18
1. 6. 2 Web搜索引擎 18
1.7数据挖掘的主要问题 19
1.7. 1挖掘方法 19
1.7.2用户界面 20
1.7.3有效性和可伸缩性 21
1.7.4数据库类型的多样性 21
1.7.5数据挖掘与社会 21
1. 8小结 22
1. 9习题 23
1.10文献注释 23
第2章 认识数据 26
2.1数据对象与属性类型 26
2.1.1什么是属性 27
2.1.2标称属性 27
2. 1.3二元属性 27
2.1.4序数属性 28
2.1.5数值属性 28
2.1.6离散属性与连续属性 29
2.2数据的基本统计描述 29
2.2.1中心趋势度量:均值、中位数和众数 30
2.2.2度量数据散布:极差、四分位数、方差、标准差和四分位数极差 32
2.2.3数据的基本统计描述的图形显示 34
2.3数据可视化 37
2.3. 1基于像素的可视化技术 37
2.3.2几何投影可视化技术 38
2.3.3基于图符的可视化技术 40
2.3.4层次可视化技术 42
2.3.5可视化复杂对象和关系 42
2.4度量数据的相似性和相异性 44
2.4.1数据矩阵与相异性矩阵 45
2.4.2标称属性的邻近性度量 46
2.4.3二元属性的邻近性度量 46
2.4.4数值属性的相异性:闵可夫斯基距离 48
2.4.5序数属性的邻近性度量 49
2. 4. 6 混合类型属性的相异性 50
2.4.7余弦相似性 51
2.5小结 52
2.6习题 53
2.7文献注释 54
第3章 数据预处理 55
3.1数据预处理:概述 55
3.1.1数据质量:为什么要对数据预处理 55
3.1.2数据预处理的主要任务 56
3.2数据清理 58
3.2. 1缺失值 58
3.2.2噪声数据 59
3.2.3数据清理作为一个过程 60
3.3数据集成 61
3.3.1实体识别问题 62
3. 3. 2 冗余和相关分析 62
3.3.3元组重复 65
3.3.4数据值冲突的检测与处理 65
3.4数据归约 65
3.4. 1数据归约策略概述 66
3.4.2小波变换 66
3.4.3主成分分析 67
3.4.4属性子集选择 68
3.4.5回归和对数线性模型:参数化数据归约 69
3.4.6直方图 70
3.4.7聚类 71
3.4.8抽样 71
3.4.9数据立方体聚集 72
3.5数据变换与数据离散化 73
3.5. 1数据变换策略概述 73
3.5.2通过规范化变换数据 74
3.5.3通过分箱离散化 76
3.5.4通过直方图分析离散化 76
3.5.5通过聚类、决策树和相关分析离散化 76
3.5.6标称数据的概念分层产生 77
3.6小结 79
3.7习题 79
3.8文献注释 80
第4章 数据仓库与联机分析处理 82
4.1数据仓库:基本概念 82
4.1.1什么是数据仓库 82
4.1.2操作数据库系统与数据仓库的区别 84
4.1.3为什么需要分离的数据仓库 85
4.1.4数据仓库:一种多层体系结构 85
4.1.5数据仓库模型:企业仓库、数据集市和虚拟仓库 87
4.1.6数据提取、变换和装入 88
4.1.7元数据库 88
4.2数据仓库建模:数据立方体与OLAP 89
4.2.1数据立方体:一种多维数据模型 89
4.2.2星形、雪花形和事实星座:多维数据模型的模式 91
4.2.3维:概念分层的作用 94
4.2.4度量的分类和计算 95
4.2.5典型的OLAP操作 96
4.2.6查询多维数据库的星网查询模型 98
4.3数据仓库的设计与使用 99
4.3.1数据仓库的设计的商务分析框架 99
4.3.2数据仓库的设计过程 100
4.3.3数据仓库用于信息处理 101
4.3.4从联机分析处理到多维数据挖掘 102
4.4数据仓库的实现 103
4.4.1数据立方体的有效计算:概述 103
4.4.2索引OLAP数据:位图索引和连接索引 105
4. 4. 3 OLAP查询的有效处理 107
4.4.4 OLAP服务器结构:ROLAP、MOLAP、 HOLAP的比较 107
4.5数据泛化:面向属性的归纳 109
4.5.1数据特征的面向属性的归纳 109
4.5.2面向属性归纳的有效实现 113
4.5.3类比较的面向属性归纳 114
4.6小结 116
4.7习题 117
4.8文献注释 119
第5章 数据立方体技术 121
5.1数据立方体计算:基本概念 121
5.1.1立方体物化:完全立方体、冰山立方体、闭立方体和立方体外壳 122
5.1.2数据立方体计算的一般策略 124
5.2数据立方体计算方法 126
5.2.1完全立方体计算的多路数组聚集 126
5. 2. 2 BUC:从顶点方体向下计算冰山立方体 129
5.2.3 Star-Cubing:使用动态星树结构计算冰山立方体 132
5.2.4为快速高维OLAP预计算壳片段 136
5.3使用探索立方体技术处理高级查询 141
5.3. 1抽样立方体:样本数据上基于OLAP的挖掘 141
5.3.2排序立方体:top- k查询的有效计算 145
5.4数据立方体空间的多维数据分析 147
5.4.1预测立方体:立方体空间的预测挖掘 147
5.4.2多特征立方体:多粒度上的复杂聚集 149
5.4.3基于异常的、发现驱动的立方体空间探查 149
5.5小结 152
5.6习题 152
5.7文献注释 155
第6章 挖掘频繁模式、关联和相关性:基本概念和方法 157
6.1基本概念 157
6.1.1购物篮分析:一个诱发例子 157
6. 1.2频繁项集、闭项集和关联规则 158
6.2频繁项集挖掘方法 160
6.2.1 Apori算法:通过限制候选产生发现频繁项集 160
6. 2. 2由频繁项集产生关联规则 164
6.2.3提高Apori算法的效率 165
6.2.4挖掘频繁项集的模式增长方法 166
6.2.5使用垂直数据格式挖掘频繁项集 169
6.2.6挖掘闭模式和极大模式 170
6.3哪些模式是有趣的:模式评估方法 171
6.3.1强规则不一定是有趣的 172
6.3.2从关联分析到相关分析 172
6.3.3模式评估度量比较 173
6.4小结 176
6.5习题 177
6.6文献注释 179
第7章 高级模式挖掘 180
7. 1模式挖掘:一个路线图 180
7.2多层、多维空间中的模式挖掘 182
7.2. 1挖掘多层关联规则 182
7.2.2挖掘多维关联规则 185
7.2.3挖掘量化关联规则 186
7.2.4挖掘稀有模式和负模式 188
7.3基于约束的频繁模式挖掘 190
7.3. 1关联规则的元规则制导挖掘 190
7.3.2基于约束的模式产生:模式空间剪枝和数据空间剪枝 191
7.4挖掘高维数据和巨型模式 195
7.5挖掘压缩或近似模式 198
7.5. 1通过模式聚类挖掘压缩模式 199
7.5.2提取感知冗余的top- k模式 200
7.6模式探索与应用 202
7.6.1频繁模式的语义注解 202
7.6.2模式挖掘的应用 205
7.7小结 206
7.8习题 207
7.9文献注释 208
第8章 分类:基本概念 211
8. 1基本概念 211
8.1.1什么是分类 211
8. 1.2分类的一般方法 211
8.2决策树归纳 213
8.2. 1决策树归纳 214
8.2.2属性选择度量 217
8.2.3树剪枝 222
8.2.4可伸缩性与决策树归纳 224
8.2.5决策树归纳的可视化挖掘 225
8.3贝叶斯分类方法 226
8.3.1贝叶斯定理 227
8.3.2朴素贝叶斯分类 227
8.4基于规则的分类 230
8.4. 1使用IF- THEN规则分类 230
8.4.2由决策树提取规则 231
8.4.3使用顺序覆盖算法的规则归纳 232
8.5模型评估与选择 236
8.5.1评估分类器性能的度量 236
8.5.2保持方法和随机二次抽样 240
8.5.3交叉验证 240
8.5.4自助法 241
8.5.5使用统计显著性检验选择模型 241
8.5.6基于成本效益和ROC曲线比较分类器 243
8.6提高分类准确率的技术 245
8.6. 1组合分类方法简介 245
8.6.2装袋 246
8.6.3提升和AdaBoost 247
8.6.4随机森林 249
8.6.5提高类不平衡数据的分类准确率 250
8.7小结 251
8.8习题 251
8.9文献注释 253
第9章 分类:高级方法 255
9.1贝叶斯信念网络 255
9.1.1概念和机制 255
9.1.2训练贝叶斯信念网络 257
9.2用后向传播分类 258
9.2.1多层前馈神经网络 258
9.2.2定义网络拓扑 259
9.2.3后向传播 260
9.2.4黑盒内部:后向传播和可解释性 263
9.3支持向量机 265
9.3.1数据线性可分的情况 265
9.3.2数据非线性可分的情况 268
9.4使用频繁模式分类 270
9.4.1关联分类 270
9.4.2基于有区别力的频繁模式分类 272
9.5惰性学习法(或从近邻学习) 275
9. 5. 1 k-最近邻分类 275
9.5.2基于案例的推理 277
9.6其他分类方法 277
9.6. 1遗传算法 277
9.6.2粗糙集方法 278
9.6.3模糊集方法 278
9.7关于分类的其他问题 280
9.7. 1多类分类 280
9.7.2半监督分类 281
9.7.3主动学习 282
9.7.4迁移学习 283
9.8小结 284
9.9习题 285
9.10文献注释 286
第10章 聚类分析:基本概念和方法 288
10.1聚类分析 288
10.1.1什么是聚类分析 288
10.1.2对聚类分析的要求 289
10.1.3基本聚类方法概述 291
10.2划分方法 293
10. 2. 1 k-均值:一种基于形心的技术 293
10.2.2 k-中心点:一种基于代表对象的技术 295
10.3层次方法 297
10.3. 1凝聚的与分裂的层次聚类 298
10.3.2算法方法的距离度量 300
10. 3.3 BIRCH:使用聚类特征树的多阶段聚类 301
10.3.4 Chameleon:使用动态建模的多阶段层次聚类 303
10.3.5概率层次聚类 304
10.4基于密度的方法 306
10.4.1 DBSCAN:一种基于高密度连通区域的基于密度的聚类 307
10.4.2 OPTICS:通过点排序识别聚类结构 309
10.4.3 DENCLUE:基于密度分布函数的聚类 311
10.5基于网格的方法 312
10. 5. 1 STING:统计信息网格 312
10.5.2 CLIQUE:一种类似于Apriori的子空间聚类方法 314
10. 6聚类评估 315
10.6.1估计聚类趋势 316
10.6.2确定簇数 317
10.6.3测定聚类质量 317
10.7小结 319
10.8习题 320
10.9文献注释 321
第11章 高级聚类分析 323
11. 1基于概率模型的聚类 323
11. 1. 1模糊簇 324
11.1.2基于概率模型的聚类 326
11.1.3期望最大化算法 328
11.2聚类高维数据 330
11.2.1聚类高维数据:问题、挑战和主要方法 330
11.2.2子空间聚类方法 331
11.2.3双聚类 332
11.2.4维归约方法和谱聚类 337
11.3聚类图和网络数据 339
11.3. 1应用与挑战 339
11.3.2相似性度量 340
11.3.3图聚类方法 343
11.4具有约束的聚类 345
11.4.1约束的分类 345
11.4.2具有约束的聚类方法 347
11.5小结 349
11.6习题 349
11.7文献注释 350
第12章 离群点检测 351
12.1离群点和离群点分析 351
12.1.1什么是离群点 351
12. 1.2离群点的类型 352
12. 1.3离群点检测的挑战 354
12.2离群点检测方法 354
12.2.1监督、半监督和无监督方法 355
12.2.2统计方法、基于邻近性的方法和基于聚类的方法 356
12.3统计学方法 357
12.3. 1参数方法 357
12.3.2非参数方法 360
12.4基于邻近性的方法 361
12.4.1基于距离的离群点检测和嵌套循环方法 361
12.4.2基于网格的方法 363
12.4.3基于密度的离群点检测 364
12.5基于聚类的方法 366
12.6基于分类的方法 368
12.7挖掘情境离群点和集体离群点 369
12.7. 1把情境离群点检测转换成传统的离群点检测 369
12.7.2关于情境对正常行为建模 370
12.7.3挖掘集体离群点 371
12.8高维数据中的离群点检测 371
12.8. 1扩充的传统离群点检测 372
12.8.2发现子空间中的离群点 373
12.8.3高维离群点建模 373
12.9小结 374
12.10习题 375
12.11文献注释 375
第13章 数据挖掘的发展趋势和研究前沿 377
13.1挖掘复杂的数据类型 377
13. 1. 1挖掘序列数据:时间序列、符号序列和生物学序列 377
13.1.2挖掘图和网络 381
13. 1.3挖掘其他类型的数据 383
13.2数据挖掘的其他方法 385
13.2. 1统计学数据挖掘 385
13.2.2关于数据挖掘基础的观点 386
13.2.3可视和听觉数据挖掘 387
13.3数据挖掘应用 391
13.3. 1金融数据分析的数据挖掘 391
13.3.2零售和电信业的数据挖掘 392
13.3.3科学与工程数据挖掘 393
13.3.4入侵检测和预防数据挖掘 395
13.3.5数据挖掘与推荐系统 396
13.4数据挖掘与社会 397
13.4.1普适的和无形的数据挖掘 397
13.4.2数据挖掘的隐私、安全和社会影响 399
13.5数据挖掘的发展趋势 400
13.6小结 402
13.7习题 402
13.8文献注释 403
参考文献 406
索引 435
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《《走近科学》精选丛书 中国UFO悬案调查》郭之文 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《新编历史小丛书 祖逖北伐》何兹全著 2019
- 《国际经典影像诊断学丛书 消化影像诊断学 原著第3版》王振常,蒋涛,李宏军,杨正汉译;(美)迈克尔·P.费德勒 2019
- 《本草古籍辑注丛书 第1辑 《食疗本草》辑校》(唐)孟诜撰;(唐)张鼎增补;尚志钧辑校 2019
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《中国朝鲜族民间故事丛书 阿里郎 朝》李龙得 2019
- 《断陷湖盆比较沉积学与油气储层》赵永胜等著 1996
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《魔法销售台词》(美)埃尔默·惠勒著 2019
- 《看漫画学钢琴 技巧 3》高宁译;(日)川崎美雪 2019
- 《优势谈判 15周年经典版》(美)罗杰·道森 2018
- 《社会学与人类生活 社会问题解析 第11版》(美)James M. Henslin(詹姆斯·M. 汉斯林) 2019
- 《海明威书信集:1917-1961 下》(美)海明威(Ernest Hemingway)著;潘小松译 2019
- 《反常识》张娟责任编辑;(美国)邓肯·J.瓦茨 2019
- 《迁徙 默温自选诗集 上》(美)W.S.默温著;伽禾译 2020
- 《上帝的孤独者 下 托马斯·沃尔夫短篇小说集》(美)托马斯·沃尔夫著;刘积源译 2017
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《高等教育双机械基础课程系列教材 高等学校教材 机械设计课程设计手册 第5版》吴宗泽,罗圣国,高志,李威 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017
- 《新工业时代 世界级工业家张毓强和他的“新石头记”》秦朔 2019
- 《智能制造高技能人才培养规划丛书 ABB工业机器人虚拟仿真教程》(中国)工控帮教研组 2019
- 《AutoCAD机械设计实例精解 2019中文版》北京兆迪科技有限公司编著 2019