数据挖掘与分析 概念与算法PDF电子书下载
- 电子书积分:16 积分如何计算积分?
- 作 者:MohammedJ.Zaki著;吴诚堃译
- 出 版 社:北京:人民邮电出版社
- 出版年份:2017
- ISBN:9787115458421
- 页数:506 页
第1章 数据挖掘与分析 1
1.1 数据矩阵 1
1.2 属性 2
1.3 数据的几何和代数描述 3
1.3.1 距离和角度 5
1.3.2 均值与总方差 8
1.3.3 正交投影 9
1.3.4 线性无关与维数 10
1.4 数据:概率观点 12
1.4.1 二元随机变量 17
1.4.2 多元随机变量 20
1.4.3 随机抽样和统计量 21
1.5 数据挖掘 22
1.5.1 探索性数据分析 23
1.5.2 频繁模式挖掘 24
1.5.3 聚类 24
1.5.4 分类 25
1.6 补充阅读 26
1.7 习题 26
第一部分 数据分析基础 28
第2章 数值属性 28
2.1 一元变量分析 28
2.1.1 数据居中度度量 29
2.1.2 数据离散度度量 32
2.2 二元变量分析 35
2.2.1 位置和离散度的度量 36
2.2.2 相关性度量 37
2.3 多元变量分析 40
2.4 数据规范化 44
2.5 正态分布 46
2.5.1 一元正态分布 46
2.5.2 多元正态分布 47
2.6 补充阅读 50
2.7 习题 51
第3章 类别型属性 53
3.1 一元分析 53
3.1.1 伯努利变量(Bernoulli variable) 53
3.1.2 多元伯努利变量 55
3.2 二元分析 61
3.3 多元分析 69
3.4 距离和角度 74
3.5 离散化 75
3.6 补充阅读 77
3.7 习题 78
第4章 图数据 79
4.1 图的概念 79
4.2 拓扑属性 83
4.3 中心度分析 86
4.3.1 基本中心度 86
4.3.2 Web中心度 88
4.4 图的模型 96
4.4.1 Erd?s-Rényi随机图模型 98
4.4.2 Watts-Strogatz小世界图模型 101
4.4.3 Barabási-Albert无标度模型 104
4.5 补充阅读 111
4.6 习题 112
第5章 核方法 114
5.1 核矩阵 117
5.1.1 再生核映射 118
5.1.2 Mercer核映射 120
5.2 向量核 122
5.3 特征空间中的基本核操作 126
5.4 复杂对象的核 132
5.4.1 字符串的谱核 132
5.4.2 图节点的扩散核 133
5.5 补充阅读 137
5.6 习题 137
第6章 高维数据 139
6.1 高维对象 139
6.2 高维体积 141
6.3 超立方体的内接超球面 143
6.4 薄超球面壳的体积 144
6.5 超空间的对角线 145
6.6 多元正态的密度 146
6.7 附录:球面体积的推导 149
6.8 补充阅读 153
6.9 习题 153
第7章 降维 156
7.1 背景知识 156
7.2 主成分分析 160
7.2.1 最优线近似 160
7.2.2 最优二维近似 163
7.2.3 最优r维近似 167
7.2.4 主成分分析的几何意义 170
7.3 核主成分分析 172
7.4 奇异值分解 178
7.4.1 奇异值分解的几何意义 179
7.4.2 奇异值分解和主成分分析之间的联系 180
7.5 补充阅读 182
7.6 习题 182
第二部分 频繁模式挖掘 186
第8章 项集挖掘 186
8.1 频繁项集和关联规则 186
8.2 频繁项集挖掘算法 189
8.2.1 逐层的方法:Apriori算法 191
8.2.2 事务标识符集的交集方法:Eclat算法 193
8.2.3 频繁模式树方法:FPGrowth算法 197
8.3 生成关联规则 201
8.4 补充阅读 203
8.5 习题 203
第9章 项集概述 208
9.1 最大频繁项集和闭频繁项集 208
9.2 挖掘最大频繁项集:GenMax算法 211
9.3 挖掘闭频繁项集:Charm算法 213
9.4 非可导项集 215
9.5 补充阅读 220
9.6 习题 221
第10章 序列挖掘 223
10.1 频繁序列 223
10.2 挖掘频繁序列 224
10.2.1 逐层挖掘:GSP 225
10.2.2 垂直序列挖掘:Spade 226
10.2.3 基于投影的序列挖掘:PrefixSpan 228
10.3 基于后缀树的子串挖掘 230
10.3.1 后缀树 230
10.3.2 Ukkonen线性时间算法 233
10.4 补充阅读 238
10.5 习题 239
第11章 图模式挖掘 242
11.1 同形和支撑 242
11.2 候选生成 245
11.3 gSpan算法 249
11.3.1 扩展和支撑计算 250
11.3.2 权威性测试 255
11.4 补充阅读 256
11.5 习题 257
第12章 模式与规则评估 260
12.1 规则和模式评估的度量 260
12.1.1 规则评估度量 260
12.1.2 模式评估度量 268
12.1.3 比较多条规则和模式 270
12.2 显著性检验和置信区间 273
12.2.1 产生式规则的费希尔精确检验 273
12.2.2 显著性的置换检验 277
12.2.3 置信区间内的自助抽样 282
12.3 补充阅读 284
12.4 习题 285
第三部分 聚类 288
第13章 基于代表的聚类 288
13.1 K-means算法 288
13.2 核K-means 292
13.3 期望最大聚类 295
13.3.1 一维中的EM 297
13.3.2 d维中的EM 300
13.3.3 极大似然估计 305
13.3.4 EM方法 309
13.4 补充阅读 311
13.5 习题 312
第14章 层次式聚类 315
14.1 预备知识 315
14.2 聚合型层次式聚类 317
14.2.1 簇间距离 317
14.2.2 更新距离矩阵 321
14.2.3 计算复杂度 322
14.3 补充阅读 322
14.4 习题 323
第15章 基于密度的聚类 325
15.1 DBSCAN算法 325
15.2 核密度估计 328
15.2.1 一元密度估计 328
15.2.2 多元密度估计 331
15.2.3 最近邻密度估计 333
15.3 基于密度的聚类:DENCLUE 333
15.4 补充阅读 338
15.5 习题 339
第16章 谱聚类和图聚类 341
16.1 图和矩阵 341
16.2 基于图的割的聚类 347
16.2.1 聚类目标函数:比例割与归一割 349
16.2.2 谱聚类算法 351
16.2.3 最大化目标:平均割与模块度 354
16.3 马尔可夫聚类 360
16.4 补充阅读 366
16.5 习题 367
第17章 聚类的验证 368
17.1 外部验证度量 368
17.1.1 基于匹配的度量 369
17.1.2 基于熵的度量 372
17.1.3 成对度量 375
17.1.4 关联度量 378
17.2 内部度量 381
17.3 相对度量 388
17.3.1 分簇稳定性 394
17.3.2 聚类趋向性 396
17.4 补充阅读 400
17.5 习题 401
第四部分 分类 404
第18章 基于概率的分类 404
18.1 贝叶斯分类器 404
18.1.1 估计先验概率 404
18.1.2 估计似然 405
18.2 朴素贝叶斯分类器 409
18.3 K最近邻分类器 412
18.4 补充阅读 414
18.5 习题 415
第19章 决策树分类器 416
19.1 决策树 417
19.2 决策树算法 419
19.2.1 分割点评估度量 420
19.2.2 评估分割点 422
19.3 补充阅读 429
19.4 习题 429
第20章 线性判别分析 431
20.1 最优线性判别 431
20.2 核判别分析 437
20.3 补充阅读 443
20.4 习题 443
第21章 支持向量机 445
21.1 支持向量和间隔 445
21.2 SVM:线性可分的情况 450
21.3 软间隔SVM:线性不可分的情况 454
21.3.1 铰链误损 455
21.3.2 二次误损 458
21.4 核SVM:非线性情况 459
21.5 SVM训练算法 462
21.5.1 对偶解法:随机梯度上升 463
21.5.2 原始问题解:牛顿优化 467
21.6 补充阅读 473
21.7 习题 473
第22章 分类的评估 475
22.1 分类性能度量 475
22.1.1 基于列联表的度量 476
22.1.2 二值分类:正类和负类 479
22.1.3 ROC分析 482
22.2 分类器评估 487
22.2.1 K折交叉验证 487
22.2.2 自助抽样 488
22.2.3 置信区间 489
22.2.4 分类器比较:配对t检验 493
22.3 偏置-方差分解 495
22.4 补充阅读 503
22.5 习题 504
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《白雪公主分面包 分数》(韩)车宝金文 2016
- 《近代中国分省人文地理影像采集与研究 甘肃》《近代中国分省人文地理影像采集与研究》编写组 2019
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《穿越数据的迷宫 数据管理执行指南》Laura Sebastian-Coleman 2020
- 《大数据环境下的信息管理方法技术与服务创新丛书 俄罗斯档案事业改革与发展研究》徐胡乡责编;肖秋会 2019
- 《中风偏瘫 脑萎缩 痴呆 最新治疗原则与方法》孙作东著 2004
- 《水面舰艇编队作战运筹分析》谭安胜著 2009
- 《王蒙文集 新版 35 评点《红楼梦》 上》王蒙著 2020
- 《TED说话的力量 世界优秀演讲者的口才秘诀》(坦桑)阿卡什·P.卡里亚著 2019
- 《燕堂夜话》蒋忠和著 2019
- 《经久》静水边著 2019
- 《魔法销售台词》(美)埃尔默·惠勒著 2019
- 《微表情密码》(波)卡西亚·韦佐夫斯基,(波)帕特里克·韦佐夫斯基著 2019
- 《看书琐记与作文秘诀》鲁迅著 2019
- 《酒国》莫言著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《办好人民满意的教育 全国教育满意度调查报告》(中国)中国教育科学研究院 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《人民院士》吴娜著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《中国人民的心》杨朔著;夕琳编 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《中华人民共和国成立70周年优秀文学作品精选 短篇小说卷 上 全2册》贺邵俊主编 2019
- 《指向核心素养 北京十一学校名师教学设计 数学 九年级 上 配人教版》周志英总主编 2019
- 《中华人民共和国成立70周年优秀文学作品精选 中篇小说卷 下 全3册》洪治纲主编 2019