大数据挖掘与应用PDF电子书下载
- 电子书积分:13 积分如何计算积分?
- 作 者:王振武编著
- 出 版 社:北京:清华大学出版社
- 出版年份:2017
- ISBN:9787302460435
- 页数:368 页
第一篇 基 础篇 3
第1章 大数据简介 3
1.1 大数据 3
1.1.1 大数据的定义 3
1.1.2 大数据的特点 3
1.1.3 大数据处理的挑战 4
1.2 大数据挖掘 5
1.2.1 大数据挖掘的定义 6
1.2.2 大数据挖掘的特点 6
1.3 大数据挖掘的相关方法 7
1.3.1 数据预处理技术 7
1.3.2 关联规则挖掘 7
1.3.3 分类 7
1.3.4 聚类 8
1.3.5 孤立点挖掘 8
1.3.6 演变分析 8
1.3.7 特异群组分析 8
1.4 大数据挖掘类型 9
1.4.1 Web数据挖掘 9
1.4.2 空间数据挖掘 10
1.4.3 流数据挖掘 11
1.5 大数据挖掘的常见应用 12
1.5.1 社交网络分析 12
1.5.2 文本分析 13
1.5.3 推荐系统 13
1.6 常用的大数据统计分析方法 14
1.6.1 百分位 14
1.6.2 皮尔森相关系数 15
1.6.3 直方图 16
1.6.4 T检验 17
1.6.5 卡方检验 20
1.7 常用的大数据挖掘评估方法 24
1.8 大数据平台相关技术 25
1.8.1 分布式存储技术 25
1.8.2 分布式任务调度技术 28
1.8.3 并行计算技术 29
1.8.4 其他技术 32
1.9 大数据平台实例——阿里云数加平台 33
1.9.1 数加平台简介 33
1.9.2 数加平台产品简介 34
1.9.3 数加平台优势特色 37
1.9.4 机器学习平台简介 37
1.9.5 机器学习平台功能 38
1.9.6 机器学习平台操作流程 39
1.10 小结 48
思考题 49
第二篇 技 术篇 53
第2章 数据预处理技术 53
2.1 数据预处理的目的 53
2.2 数据采样 54
2.2.1 加权采样 54
2.2.2 随机采样 56
2.2.3 分层采样 56
2.3 数据清理 57
2.3.1 填充缺失值 57
2.3.2 光滑噪声数据 57
2.3.3 数据清理过程 58
2.4 数据集成 59
2.4.1 数据集成简介 59
2.4.2 常用数据集成方法 60
2.5 数据变换 61
2.5.1 数据变换简介 61
2.5.2 数据规范化 62
2.6 数据归约 63
2.6.1 数据立方体聚集 63
2.6.2 维归约 63
2.6.3 数据压缩 64
2.6.4 数值归约 65
2.6.5 数据离散化与概念分层 68
2.7 特征选择 70
2.7.1 特征选择简介 70
2.7.2 Relief算法 72
2.7.3 Fisher判别法 76
2.7.4 基于GBDT的过滤式特征选择 82
2.8 特征提取 84
2.8.1 特征提取简介 84
2.8.2 DKLT特征提取方法 84
2.8.3 主成分分析法 86
2.9 基于阿里云数加平台的数据采样与特征选择实例 93
2.10 小结 98
思考题 98
第3章 关联规则挖掘 100
3.1 基本概念 100
3.2 关联规则挖掘算法——Apriori算法原理 101
3.2.1 Apriori算法原理解析 101
3.2.2 Apriori算法应用举例 103
3.3 Apriori算法源代码结果分析 105
3.4 Apriori算法的特点及应用 111
3.4.1 Apriori算法的特点 111
3.4.2 Apriori算法的应用 112
3.5 小结 112
思考题 113
第4章 逻辑回归方法 114
4.1 基本概念 114
4.1.1 回归概述 114
4.1.2 线性回归简介 114
4.2 逻辑回归 116
4.2.1 二分类逻辑回归 116
4.2.2 多分类逻辑回归 117
4.2.3 逻辑回归应用举例 117
4.2.4 逻辑回归方法的特点 119
4.2.5 逻辑回归方法的应用 119
4.3 逻辑回归源代码结果分析 120
4.3.1 线性回归 120
4.3.2 多分类逻辑回归 123
4.4 基于阿里云数加平台的逻辑回归实例 129
4.4.1 二分类逻辑回归应用实例 129
4.4.2 多分类逻辑回归应用实例 132
4.5 小结 134
思考题 135
第5章 KNN算法 136
5.1 KNN算法简介 136
5.1.1 KNN算法原理 136
5.1.2 KNN算法应用举例 138
5.2 KNN算法的特点及改进 141
5.2.1 KNN算法的特点 141
5.2.2 KNN算法的改进策略 141
5.3 KNN源代码结果分析 142
5.4 基于阿里云数加平台的KNN算法应用实例 147
5.5 小结 148
思考题 149
第6章 朴素贝叶斯分类算法 150
6.1 基本概念 150
6.1.1 主观概率 150
6.1.2 贝叶斯定理 151
6.1.3 朴素贝叶斯分类模型 152
6.1.4 朴素贝叶斯分类器实例分析 154
6.2 朴素贝叶斯算法的特点及应用 156
6.2.1 朴素贝叶斯算法的特点 156
6.2.2 朴素贝叶斯算法的应用场景 157
6.3 朴素贝叶斯源代码结果分析 157
6.4 基于阿里云数加平台的朴素贝叶斯实例 162
6.5 小结 164
思考题 164
第7章 随机森林分类算法 165
7.1 随机森林算法简介 165
7.1.1 随机森林算法原理 165
7.1.2 随机森林算法应用举例 166
7.2 随机森林算法的特点及应用 171
7.2.1 随机森林算法的特点 171
7.2.2 随机森林算法的应用 172
7.3 随机森林算法源程序结果分析 172
7.4 基于阿里云数加平台的随机森林分类实例 184
7.5 小结 185
思考题 185
第8章 支持向量机 186
8.1 基本概念 186
8.1.1 支持向量机理论基础 186
8.1.2 统计学习核心理论 186
8.1.3 学习过程的一致性条件 186
8.1.4 函数集的VC维 187
8.1.5 泛化误差界 188
8.1.6 结构风险最小化归纳原理 188
8.2 支持向量机原理 189
8.2.1 支持向量机核心理论 189
8.2.2 最大间隔分类超平面 189
8.2.3 支持向量机 190
8.2.4 核函数分类 193
8.3 支持向量机的特点及应用 194
8.3.1 支持向量机的特点 194
8.3.2 支持向量机的应用 194
8.4 支持向量机分类实例分析 195
8.5 基于阿里云数加平台的支持向量机分类实例 197
8.6 小结 199
思考题 199
第9章 人工神经网络算法 200
9.1 基本概念 200
9.1.1 生物神经元模型 200
9.1.2 人工神经元模型 201
9.1.3 主要的神经网络模型 202
9.2 BP算法的原理 204
9.2.1 Delta学习规则的基本原理 204
9.2.2 BP神经网络的结构 204
9.2.3 BP神经网络的算法描述 205
9.2.4 标准BP神经网络的工作过程 206
9.3 BP神经网络实例分析 207
9.4 BP神经网络的特点及应用 210
9.4.1 BP神经网络的特点 210
9.4.2 BP神经网络的应用 212
9.5 BP神经网络算法源代码结果分析 212
9.6 小结 215
思考题 215
第10章 决策树分类算法 216
10.1 基本概念 216
10.1.1 决策树分类算法简介 216
10.1.2 决策树基本算法概述 216
10.2 决策树分类算法——ID3算法原理 218
10.2.1 ID3算法原理 218
10.2.2 熵和信息增益 219
10.2.3 ID3算法 221
10.3 ID3算法实例分析 221
10.4 ID3算法的特点及应用 225
10.4.1 ID3算法的特点 225
10.4.2 ID3算法的应用 225
10.5 ID3算法源程序结果分析 226
10.6 决策树分类算法——C4.5 算法原理 230
10.6.1 C4.5 算法 230
10.6.2 C4.5 算法的伪代码 232
10.7 C4.5 算法实例分析 233
10.8 C4.5 算法的特点及应用 234
10.8.1 C4.5 算法的特点 234
10.8.2 C4.5 算法的应用 235
10.9 C4.5 源程序结果分析 235
10.10 小结 244
思考题 244
第11章 K-means聚类算法 245
11.1 K-means聚类算法原理 245
11.1.1 K-means聚类算法原理解析 245
11.1.2 K-means聚类算法应用举例 246
11.2 K-means聚类算法的特点及应用 250
11.2.1 K-means聚类算法的特点 250
11.2.2 K-means聚类算法的应用 250
11.3 K均值聚类算法源程序结果分析 250
11.4 基于阿里云数加平台的K均值聚类算法实例 257
11.5 基于MaxCompute Graph模型的K-means算法源程序分析 259
11.6 小结 264
思考题 264
第12章 K-中心点聚类算法 265
12.1 K-中心点聚类算法原理 265
12.1.1 K-中心点聚类算法原理解析 265
12.1.2 K-中心点聚类算法实例分析 266
12.2 K-中心点聚类算法的特点及应用 267
12.2.1 K-中心点聚类算法的特点 267
12.2.2 K-中心点聚类算法的应用 268
12.3 K-中心点算法源程序结果分析 268
12.4 小结 275
思考题 275
第13章 自组织神经网络聚类算法 276
13.1 SOM网络简介 276
13.2 竞争学习算法基础 276
13.2.1 SOM网络结构 276
13.2.2 SOM网络概述 277
13.3 SOM网络原理 279
13.3.1 SOM网络的拓扑结构 279
13.3.2 SOM权值调整域 279
13.3.3 SOM网络运行原理 280
13.3.4 SOM网络学习方法 281
13.4 SOM网络应用举例 281
13.4.1 问题描述 281
13.4.2 网络设计及学习结果 282
13.4.3 输出结果分析 282
13.5 SOM网络的特点及应用 283
13.5.1 SOM网络的特点 283
13.5.2 SOM网络的应用 283
13.6 SOM神经网络源程序结果分析 284
13.7 小结 299
思考题 300
第14章 DBSCAN聚类算法 301
14.1 DBSCAN算法的原理 301
14.1.1 DBSCAN算法原理解析 301
14.1.2 DBSCAN算法应用举例 302
14.2 DBSCAN算法的特点与应用 303
14.2.1 DBSCAN算法的特点 303
14.2.2 DBSCAN算法的应用 304
14.3 DBSCAN源程序结果分析 304
14.4 小结 309
思考题 309
第三篇 综合应用篇 313
第15章 社交网络分析方法及应用 313
15.1 社交网络简介 313
15.2 K-核方法 313
15.2.1 K-核方法原理 313
15.2.2 基于阿里云数加平台的K-核方法实例 314
15.3 单源最短路径方法 315
15.3.1 单源最短路径方法原理 315
15.3.2 基于阿里云数加平台的单源最短路径方法实例 317
15.4 PageRank算法 318
15.4.1 PageRank算法原理 318
15.4.2 PageRank算法的特点及应用 319
15.4.3 基于阿里云数加平台的PageRank算法实例 320
15.5 标签传播算法 321
15.5.1 标签传播算法原理 321
15.5.2 基于阿里云数加平台的标签传播聚类应用实例 325
15.6 最大联通子图算法 326
15.7 聚类系数算法 328
15.7.1 聚类系数算法原理 328
15.7.2 基于阿里云数加平台的聚类系数算法应用实例 329
15.8 基于阿里云数加平台的社交网络分析实例 331
15.9 小结 335
思考题 336
第16章 文本分析方法及应用 337
16.1 文本分析简介 337
16.2 TF-IDF方法 337
16.3 中文分词方法 338
16.3.1 基于字典或词库匹配的分词方法 338
16.3.2 基于词的频度统计的分词方法 339
16.3.3 其他中文分词方法 340
16.4 PLDA方法 341
16.4.1 主题模型 341
16.4.2 PLDA方法原理 342
16.5 Word2Vec基本原理 344
16.5.1 词向量的表示方式 344
16.5.2 统计语言模型 344
16.5.3 霍夫曼编码 348
16.5.4 Word2Vec原理简介 349
16.6 基于阿里云数加平台的文本分析实例 350
16.7 小结 354
思考题 354
第17章 推荐系统方法及应用 355
17.1 推荐系统简介 355
17.2 基于内容的推荐算法 355
17.2.1 基于内容的推荐算法原理 355
17.2.2 基于内容的推荐算法的特点 359
17.3 协同过滤推荐算法 359
17.3.1 协同过滤推荐算法简介 359
17.3.2 协同过滤推荐算法的特点 362
17.4 混合推荐算法 362
17.5 基于阿里云数加平台的推荐算法实例 364
17.6 小结 365
思考题 366
参考文献 367
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《钒产业技术及应用》高峰,彭清静,华骏主编 2019
- 《现代水泥技术发展与应用论文集》天津水泥工业设计研究院有限公司编 2019
- 《英汉翻译理论的多维阐释及应用剖析》常瑞娟著 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《区块链DAPP开发入门、代码实现、场景应用》李万胜著 2019
- 《虚拟流域环境理论技术研究与应用》冶运涛蒋云钟梁犁丽曹引等编著 2019
- 《当代翻译美学的理论诠释与应用解读》宁建庚著 2019
- 《第一性原理方法及应用》李青坤著 2019
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《市政工程基础》杨岚编著 2009
- 《家畜百宝 猪、牛、羊、鸡的综合利用》山西省商业厅组织技术处编著 1959
- 《《道德经》200句》崇贤书院编著 2018
- 《高级英语阅读与听说教程》刘秀梅编著 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《思维导图 超好用英语单词书》(中国)王若琳 2019
- 《看图自学吉他弹唱教程》陈飞编著 2019
- 《法语词汇认知联想记忆法》刘莲编著 2020
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《国家社科基金项目申报规范 技巧与案例 第3版 2020》文传浩,夏宇编著 2019
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019