第1章 绪论 1
1.1 理解大数据挖掘 2
1.1.1 大数据挖掘的定义 2
1.1.2 大数据挖掘的任务 4
1.1.3 大数据挖掘的特点 5
1.1.4 大数据挖掘与相关技术的差异 7
1.2 大数据挖掘的相关技术 10
1.2.1 大数据获取 10
1.2.2 大数据存储与管理 11
1.2.3 大数据可视化 13
1.3 小结 14
参考文献 14
第2章 大数据计算框架 17
2.1 HDFS 18
2.2 MapReduce 19
2.2.1 MapReduce框架及范例 19
2.2.2 MapReduce存在的问题和解决方法 21
2.3 NoSQL(非关系型)数据库 22
2.3.1 NoSQL数据库的分类 22
2.3.2 NoSQL数据库实例 23
2.4 SQL(关系型)数据库 25
2.4.1 Apache HIVE 25
2.4.2 其他SQL数据库 29
2.5 小结 30
参考文献 30
第3章 关联分析 31
3.1 关联分析的基本概念 32
3.1.1 关联分析的定义 32
3.1.2 关联规则的定义 32
3.1.3 关联规则的分类 37
3.2 关联规则挖掘的原理 38
3.2.1 挖掘简单关联规则 40
3.2.2 挖掘量化关联规则 46
3.2.3 挖掘多层关联规则 50
3.2.4 挖掘多维关联规则 53
3.3 关联规则挖掘的基础算法 54
3.3.1 Apriori算法 54
3.3.2 Apriori算法的优化 56
3.3.3 FP-Growth算法 57
3.3.4 序列模式挖掘算法 63
3.4 挖掘算法的进阶方法 80
3.4.1 USpan:高效用序列模式挖掘算法 80
3.4.2 HusMaR:基于MapReduce的序列模式挖掘算法 82
3.5 小结 86
参考文献 87
第4章 聚类分析 89
4.1 聚类分析的基本概念 90
4.1.1 簇与聚类 91
4.1.2 相似性度量和聚类原理 93
4.2 聚类分析的基础算法 103
4.2.1 层次的方法——单连接算法、BIRCH算法 103
4.2.2 划分的方法——k-means和k-medoids算法 112
4.2.3 基于密度的方法——OPTICS算法 117
4.3 聚类分析的进阶方法 123
4.3.1 Density Peaks算法(AA算法) 123
4.3.2 k-meansⅡ:基于MapReduce的k-means算法 127
4.4 小结 130
参考文献 130
第5章 分类分析 133
5.1 分类分析的基本概念 134
5.2 分类模型 135
5.3 分类分析的原理 135
5.3.1 决策树 135
5.3.2 基于统计的方法 141
5.3.3 基于神经网络的方法 146
5.4 分类分析的基础算法 148
5.4.1 ID3和C4.5 算法:基于决策树的分类算法 148
5.4.2 SLIQ:一种高速可伸缩的基于决策树的分类算法 155
5.4.3 后向传播算法BP算法:基于神经网络的分类算法 165
5.5 分类分析的进阶方法 172
5.6 小结 174
参考文献 174
第6章 异常分析 177
6.1 异常分析的基本概念 178
6.1.1 异常 178
6.1.2 异常分析 178
6.2 异常分析的原理 179
6.2.1 基于统计的异常分析方法 179
6.2.2 基于偏差的异常分析方法 179
6.2.3 基于距离的异常分析方法 181
6.2.4 基于密度的异常分析方法 181
6.3 异常分析的主要算法 181
6.3.1 基于距离的异常分析算法 181
6.3.2 基于密度的异常分析算法 193
6.4 小结 202
参考文献 202
第7章 特异群组挖掘 205
7.1 特异群组挖掘的基本概念 206
7.2 特异群组挖掘与聚类和异常检测的关系 207
7.3 特异群组挖掘形式化描述 208
7.4 特异群组挖掘框架算法 210
7.5 特异群组挖掘应用 211
7.6 小结 215
参考文献 216
第8章 演变分析 219
8.1 演变分析的基本概念 220
8.2 演变分析的原理 221
8.3 演变分析的基础算法 240
8.4 演变分析的进阶算法 245
8.4.1 时间序列随机偏移符号化表示算法 245
8.4.2 多维温度序列协同异常事件挖掘算法 253
8.5 小结 259
参考文献 259
第9章 异质数据网络挖掘 261
9.1 异质数据网络 262
9.2 异质数据网络挖掘研究现状 266
9.3 数据网络上的相似性度量的研究 267
9.4 异质数据网络挖掘研究内容 267
9.5 小结 269
参考文献 270
第10章 大数据挖掘应用之推荐系统 273
10.1 推荐系统研究阶段 274
10.2 推荐系统算法 276
10.2.1 推荐系统定义 276
10.2.2 推荐算法分类 277
10.2.3 比较与分析 282
10.3 推荐系统的评测 283
10.4 小结 284
参考文献 285
第11章 大数据中的隐私问题 291
11.1 隐私的重要性 292
11.2 隐私保护技术 294
11.2.1 直接攻击的应对方法 295
11.2.2 间接攻击的应对方法 296
11.3 小结 299
参考文献 300