《大数据挖掘》PDF下载

  • 购买积分:11 如何计算积分?
  • 作  者:熊赟,朱扬勇,陈志渊编著
  • 出 版 社:上海:上海科学技术出版社
  • 出版年份:2016
  • ISBN:9787547829615
  • 页数:300 页
图书介绍:本书为有志从事大数据工作的各类人员提供参考书,将系统地介绍大数据挖掘的概念、原理、技术和应用。包括:认识和理解大数据;大数据挖掘需要的相关技术(大数据获取技术、大数据存储管理技术和大数据可视化技术等);大数据计算框架;大数据挖掘任务(关联分析、聚类分析、分类分析、演变分析、特异群组分析和异常分析);大数据应用实现;以及大数据挖掘工具。本书对大数据挖掘技术进行了全面而细致的定义和归纳,并将向读者展现该领域最新研究热点和技术。关于大数据应用实现章节的内容将采用作者实际主持和完成的大数据挖掘项目为实际案例,阐述大数据挖掘应用实现过程中的问题、解决方案和取得的成果。

第1章 绪论 1

1.1 理解大数据挖掘 2

1.1.1 大数据挖掘的定义 2

1.1.2 大数据挖掘的任务 4

1.1.3 大数据挖掘的特点 5

1.1.4 大数据挖掘与相关技术的差异 7

1.2 大数据挖掘的相关技术 10

1.2.1 大数据获取 10

1.2.2 大数据存储与管理 11

1.2.3 大数据可视化 13

1.3 小结 14

参考文献 14

第2章 大数据计算框架 17

2.1 HDFS 18

2.2 MapReduce 19

2.2.1 MapReduce框架及范例 19

2.2.2 MapReduce存在的问题和解决方法 21

2.3 NoSQL(非关系型)数据库 22

2.3.1 NoSQL数据库的分类 22

2.3.2 NoSQL数据库实例 23

2.4 SQL(关系型)数据库 25

2.4.1 Apache HIVE 25

2.4.2 其他SQL数据库 29

2.5 小结 30

参考文献 30

第3章 关联分析 31

3.1 关联分析的基本概念 32

3.1.1 关联分析的定义 32

3.1.2 关联规则的定义 32

3.1.3 关联规则的分类 37

3.2 关联规则挖掘的原理 38

3.2.1 挖掘简单关联规则 40

3.2.2 挖掘量化关联规则 46

3.2.3 挖掘多层关联规则 50

3.2.4 挖掘多维关联规则 53

3.3 关联规则挖掘的基础算法 54

3.3.1 Apriori算法 54

3.3.2 Apriori算法的优化 56

3.3.3 FP-Growth算法 57

3.3.4 序列模式挖掘算法 63

3.4 挖掘算法的进阶方法 80

3.4.1 USpan:高效用序列模式挖掘算法 80

3.4.2 HusMaR:基于MapReduce的序列模式挖掘算法 82

3.5 小结 86

参考文献 87

第4章 聚类分析 89

4.1 聚类分析的基本概念 90

4.1.1 簇与聚类 91

4.1.2 相似性度量和聚类原理 93

4.2 聚类分析的基础算法 103

4.2.1 层次的方法——单连接算法、BIRCH算法 103

4.2.2 划分的方法——k-means和k-medoids算法 112

4.2.3 基于密度的方法——OPTICS算法 117

4.3 聚类分析的进阶方法 123

4.3.1 Density Peaks算法(AA算法) 123

4.3.2 k-meansⅡ:基于MapReduce的k-means算法 127

4.4 小结 130

参考文献 130

第5章 分类分析 133

5.1 分类分析的基本概念 134

5.2 分类模型 135

5.3 分类分析的原理 135

5.3.1 决策树 135

5.3.2 基于统计的方法 141

5.3.3 基于神经网络的方法 146

5.4 分类分析的基础算法 148

5.4.1 ID3和C4.5 算法:基于决策树的分类算法 148

5.4.2 SLIQ:一种高速可伸缩的基于决策树的分类算法 155

5.4.3 后向传播算法BP算法:基于神经网络的分类算法 165

5.5 分类分析的进阶方法 172

5.6 小结 174

参考文献 174

第6章 异常分析 177

6.1 异常分析的基本概念 178

6.1.1 异常 178

6.1.2 异常分析 178

6.2 异常分析的原理 179

6.2.1 基于统计的异常分析方法 179

6.2.2 基于偏差的异常分析方法 179

6.2.3 基于距离的异常分析方法 181

6.2.4 基于密度的异常分析方法 181

6.3 异常分析的主要算法 181

6.3.1 基于距离的异常分析算法 181

6.3.2 基于密度的异常分析算法 193

6.4 小结 202

参考文献 202

第7章 特异群组挖掘 205

7.1 特异群组挖掘的基本概念 206

7.2 特异群组挖掘与聚类和异常检测的关系 207

7.3 特异群组挖掘形式化描述 208

7.4 特异群组挖掘框架算法 210

7.5 特异群组挖掘应用 211

7.6 小结 215

参考文献 216

第8章 演变分析 219

8.1 演变分析的基本概念 220

8.2 演变分析的原理 221

8.3 演变分析的基础算法 240

8.4 演变分析的进阶算法 245

8.4.1 时间序列随机偏移符号化表示算法 245

8.4.2 多维温度序列协同异常事件挖掘算法 253

8.5 小结 259

参考文献 259

第9章 异质数据网络挖掘 261

9.1 异质数据网络 262

9.2 异质数据网络挖掘研究现状 266

9.3 数据网络上的相似性度量的研究 267

9.4 异质数据网络挖掘研究内容 267

9.5 小结 269

参考文献 270

第10章 大数据挖掘应用之推荐系统 273

10.1 推荐系统研究阶段 274

10.2 推荐系统算法 276

10.2.1 推荐系统定义 276

10.2.2 推荐算法分类 277

10.2.3 比较与分析 282

10.3 推荐系统的评测 283

10.4 小结 284

参考文献 285

第11章 大数据中的隐私问题 291

11.1 隐私的重要性 292

11.2 隐私保护技术 294

11.2.1 直接攻击的应对方法 295

11.2.2 间接攻击的应对方法 296

11.3 小结 299

参考文献 300