当前位置:首页 > 工业技术
大数据挖掘与应用
大数据挖掘与应用

大数据挖掘与应用PDF电子书下载

工业技术

  • 电子书积分:13 积分如何计算积分?
  • 作 者:王振武编著
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2017
  • ISBN:9787302460435
  • 页数:368 页
图书介绍:本教材对大数据挖掘的基本技术进行了介绍,内容涵盖大数据简介、数据预处理技术、关联规则挖掘、KNN分类算法、逻辑回归分类方法、随机森林分类算法、朴素贝叶斯分类算法、支持向量机分类算法、K均值聚类算法、K-modes聚类算法、DBSCAN聚类算法等基本理论的介绍,在介绍基本理论的同时通过举例说明算法的原理,并以阿里云大数据平台为依托进行应用介绍,教材最后以综合应用的形式介绍数据挖掘的热点应用。
《大数据挖掘与应用》目录

第一篇 基 础篇 3

第1章 大数据简介 3

1.1 大数据 3

1.1.1 大数据的定义 3

1.1.2 大数据的特点 3

1.1.3 大数据处理的挑战 4

1.2 大数据挖掘 5

1.2.1 大数据挖掘的定义 6

1.2.2 大数据挖掘的特点 6

1.3 大数据挖掘的相关方法 7

1.3.1 数据预处理技术 7

1.3.2 关联规则挖掘 7

1.3.3 分类 7

1.3.4 聚类 8

1.3.5 孤立点挖掘 8

1.3.6 演变分析 8

1.3.7 特异群组分析 8

1.4 大数据挖掘类型 9

1.4.1 Web数据挖掘 9

1.4.2 空间数据挖掘 10

1.4.3 流数据挖掘 11

1.5 大数据挖掘的常见应用 12

1.5.1 社交网络分析 12

1.5.2 文本分析 13

1.5.3 推荐系统 13

1.6 常用的大数据统计分析方法 14

1.6.1 百分位 14

1.6.2 皮尔森相关系数 15

1.6.3 直方图 16

1.6.4 T检验 17

1.6.5 卡方检验 20

1.7 常用的大数据挖掘评估方法 24

1.8 大数据平台相关技术 25

1.8.1 分布式存储技术 25

1.8.2 分布式任务调度技术 28

1.8.3 并行计算技术 29

1.8.4 其他技术 32

1.9 大数据平台实例——阿里云数加平台 33

1.9.1 数加平台简介 33

1.9.2 数加平台产品简介 34

1.9.3 数加平台优势特色 37

1.9.4 机器学习平台简介 37

1.9.5 机器学习平台功能 38

1.9.6 机器学习平台操作流程 39

1.10 小结 48

思考题 49

第二篇 技 术篇 53

第2章 数据预处理技术 53

2.1 数据预处理的目的 53

2.2 数据采样 54

2.2.1 加权采样 54

2.2.2 随机采样 56

2.2.3 分层采样 56

2.3 数据清理 57

2.3.1 填充缺失值 57

2.3.2 光滑噪声数据 57

2.3.3 数据清理过程 58

2.4 数据集成 59

2.4.1 数据集成简介 59

2.4.2 常用数据集成方法 60

2.5 数据变换 61

2.5.1 数据变换简介 61

2.5.2 数据规范化 62

2.6 数据归约 63

2.6.1 数据立方体聚集 63

2.6.2 维归约 63

2.6.3 数据压缩 64

2.6.4 数值归约 65

2.6.5 数据离散化与概念分层 68

2.7 特征选择 70

2.7.1 特征选择简介 70

2.7.2 Relief算法 72

2.7.3 Fisher判别法 76

2.7.4 基于GBDT的过滤式特征选择 82

2.8 特征提取 84

2.8.1 特征提取简介 84

2.8.2 DKLT特征提取方法 84

2.8.3 主成分分析法 86

2.9 基于阿里云数加平台的数据采样与特征选择实例 93

2.10 小结 98

思考题 98

第3章 关联规则挖掘 100

3.1 基本概念 100

3.2 关联规则挖掘算法——Apriori算法原理 101

3.2.1 Apriori算法原理解析 101

3.2.2 Apriori算法应用举例 103

3.3 Apriori算法源代码结果分析 105

3.4 Apriori算法的特点及应用 111

3.4.1 Apriori算法的特点 111

3.4.2 Apriori算法的应用 112

3.5 小结 112

思考题 113

第4章 逻辑回归方法 114

4.1 基本概念 114

4.1.1 回归概述 114

4.1.2 线性回归简介 114

4.2 逻辑回归 116

4.2.1 二分类逻辑回归 116

4.2.2 多分类逻辑回归 117

4.2.3 逻辑回归应用举例 117

4.2.4 逻辑回归方法的特点 119

4.2.5 逻辑回归方法的应用 119

4.3 逻辑回归源代码结果分析 120

4.3.1 线性回归 120

4.3.2 多分类逻辑回归 123

4.4 基于阿里云数加平台的逻辑回归实例 129

4.4.1 二分类逻辑回归应用实例 129

4.4.2 多分类逻辑回归应用实例 132

4.5 小结 134

思考题 135

第5章 KNN算法 136

5.1 KNN算法简介 136

5.1.1 KNN算法原理 136

5.1.2 KNN算法应用举例 138

5.2 KNN算法的特点及改进 141

5.2.1 KNN算法的特点 141

5.2.2 KNN算法的改进策略 141

5.3 KNN源代码结果分析 142

5.4 基于阿里云数加平台的KNN算法应用实例 147

5.5 小结 148

思考题 149

第6章 朴素贝叶斯分类算法 150

6.1 基本概念 150

6.1.1 主观概率 150

6.1.2 贝叶斯定理 151

6.1.3 朴素贝叶斯分类模型 152

6.1.4 朴素贝叶斯分类器实例分析 154

6.2 朴素贝叶斯算法的特点及应用 156

6.2.1 朴素贝叶斯算法的特点 156

6.2.2 朴素贝叶斯算法的应用场景 157

6.3 朴素贝叶斯源代码结果分析 157

6.4 基于阿里云数加平台的朴素贝叶斯实例 162

6.5 小结 164

思考题 164

第7章 随机森林分类算法 165

7.1 随机森林算法简介 165

7.1.1 随机森林算法原理 165

7.1.2 随机森林算法应用举例 166

7.2 随机森林算法的特点及应用 171

7.2.1 随机森林算法的特点 171

7.2.2 随机森林算法的应用 172

7.3 随机森林算法源程序结果分析 172

7.4 基于阿里云数加平台的随机森林分类实例 184

7.5 小结 185

思考题 185

第8章 支持向量机 186

8.1 基本概念 186

8.1.1 支持向量机理论基础 186

8.1.2 统计学习核心理论 186

8.1.3 学习过程的一致性条件 186

8.1.4 函数集的VC维 187

8.1.5 泛化误差界 188

8.1.6 结构风险最小化归纳原理 188

8.2 支持向量机原理 189

8.2.1 支持向量机核心理论 189

8.2.2 最大间隔分类超平面 189

8.2.3 支持向量机 190

8.2.4 核函数分类 193

8.3 支持向量机的特点及应用 194

8.3.1 支持向量机的特点 194

8.3.2 支持向量机的应用 194

8.4 支持向量机分类实例分析 195

8.5 基于阿里云数加平台的支持向量机分类实例 197

8.6 小结 199

思考题 199

第9章 人工神经网络算法 200

9.1 基本概念 200

9.1.1 生物神经元模型 200

9.1.2 人工神经元模型 201

9.1.3 主要的神经网络模型 202

9.2 BP算法的原理 204

9.2.1 Delta学习规则的基本原理 204

9.2.2 BP神经网络的结构 204

9.2.3 BP神经网络的算法描述 205

9.2.4 标准BP神经网络的工作过程 206

9.3 BP神经网络实例分析 207

9.4 BP神经网络的特点及应用 210

9.4.1 BP神经网络的特点 210

9.4.2 BP神经网络的应用 212

9.5 BP神经网络算法源代码结果分析 212

9.6 小结 215

思考题 215

第10章 决策树分类算法 216

10.1 基本概念 216

10.1.1 决策树分类算法简介 216

10.1.2 决策树基本算法概述 216

10.2 决策树分类算法——ID3算法原理 218

10.2.1 ID3算法原理 218

10.2.2 熵和信息增益 219

10.2.3 ID3算法 221

10.3 ID3算法实例分析 221

10.4 ID3算法的特点及应用 225

10.4.1 ID3算法的特点 225

10.4.2 ID3算法的应用 225

10.5 ID3算法源程序结果分析 226

10.6 决策树分类算法——C4.5 算法原理 230

10.6.1 C4.5 算法 230

10.6.2 C4.5 算法的伪代码 232

10.7 C4.5 算法实例分析 233

10.8 C4.5 算法的特点及应用 234

10.8.1 C4.5 算法的特点 234

10.8.2 C4.5 算法的应用 235

10.9 C4.5 源程序结果分析 235

10.10 小结 244

思考题 244

第11章 K-means聚类算法 245

11.1 K-means聚类算法原理 245

11.1.1 K-means聚类算法原理解析 245

11.1.2 K-means聚类算法应用举例 246

11.2 K-means聚类算法的特点及应用 250

11.2.1 K-means聚类算法的特点 250

11.2.2 K-means聚类算法的应用 250

11.3 K均值聚类算法源程序结果分析 250

11.4 基于阿里云数加平台的K均值聚类算法实例 257

11.5 基于MaxCompute Graph模型的K-means算法源程序分析 259

11.6 小结 264

思考题 264

第12章 K-中心点聚类算法 265

12.1 K-中心点聚类算法原理 265

12.1.1 K-中心点聚类算法原理解析 265

12.1.2 K-中心点聚类算法实例分析 266

12.2 K-中心点聚类算法的特点及应用 267

12.2.1 K-中心点聚类算法的特点 267

12.2.2 K-中心点聚类算法的应用 268

12.3 K-中心点算法源程序结果分析 268

12.4 小结 275

思考题 275

第13章 自组织神经网络聚类算法 276

13.1 SOM网络简介 276

13.2 竞争学习算法基础 276

13.2.1 SOM网络结构 276

13.2.2 SOM网络概述 277

13.3 SOM网络原理 279

13.3.1 SOM网络的拓扑结构 279

13.3.2 SOM权值调整域 279

13.3.3 SOM网络运行原理 280

13.3.4 SOM网络学习方法 281

13.4 SOM网络应用举例 281

13.4.1 问题描述 281

13.4.2 网络设计及学习结果 282

13.4.3 输出结果分析 282

13.5 SOM网络的特点及应用 283

13.5.1 SOM网络的特点 283

13.5.2 SOM网络的应用 283

13.6 SOM神经网络源程序结果分析 284

13.7 小结 299

思考题 300

第14章 DBSCAN聚类算法 301

14.1 DBSCAN算法的原理 301

14.1.1 DBSCAN算法原理解析 301

14.1.2 DBSCAN算法应用举例 302

14.2 DBSCAN算法的特点与应用 303

14.2.1 DBSCAN算法的特点 303

14.2.2 DBSCAN算法的应用 304

14.3 DBSCAN源程序结果分析 304

14.4 小结 309

思考题 309

第三篇 综合应用篇 313

第15章 社交网络分析方法及应用 313

15.1 社交网络简介 313

15.2 K-核方法 313

15.2.1 K-核方法原理 313

15.2.2 基于阿里云数加平台的K-核方法实例 314

15.3 单源最短路径方法 315

15.3.1 单源最短路径方法原理 315

15.3.2 基于阿里云数加平台的单源最短路径方法实例 317

15.4 PageRank算法 318

15.4.1 PageRank算法原理 318

15.4.2 PageRank算法的特点及应用 319

15.4.3 基于阿里云数加平台的PageRank算法实例 320

15.5 标签传播算法 321

15.5.1 标签传播算法原理 321

15.5.2 基于阿里云数加平台的标签传播聚类应用实例 325

15.6 最大联通子图算法 326

15.7 聚类系数算法 328

15.7.1 聚类系数算法原理 328

15.7.2 基于阿里云数加平台的聚类系数算法应用实例 329

15.8 基于阿里云数加平台的社交网络分析实例 331

15.9 小结 335

思考题 336

第16章 文本分析方法及应用 337

16.1 文本分析简介 337

16.2 TF-IDF方法 337

16.3 中文分词方法 338

16.3.1 基于字典或词库匹配的分词方法 338

16.3.2 基于词的频度统计的分词方法 339

16.3.3 其他中文分词方法 340

16.4 PLDA方法 341

16.4.1 主题模型 341

16.4.2 PLDA方法原理 342

16.5 Word2Vec基本原理 344

16.5.1 词向量的表示方式 344

16.5.2 统计语言模型 344

16.5.3 霍夫曼编码 348

16.5.4 Word2Vec原理简介 349

16.6 基于阿里云数加平台的文本分析实例 350

16.7 小结 354

思考题 354

第17章 推荐系统方法及应用 355

17.1 推荐系统简介 355

17.2 基于内容的推荐算法 355

17.2.1 基于内容的推荐算法原理 355

17.2.2 基于内容的推荐算法的特点 359

17.3 协同过滤推荐算法 359

17.3.1 协同过滤推荐算法简介 359

17.3.2 协同过滤推荐算法的特点 362

17.4 混合推荐算法 362

17.5 基于阿里云数加平台的推荐算法实例 364

17.6 小结 365

思考题 366

参考文献 367

相关图书
作者其它书籍
返回顶部