大数据分析原理与实践PDF电子书下载
- 电子书积分:14 积分如何计算积分?
- 作 者:王宏志编著
- 出 版 社:北京:机械工业出版社
- 出版年份:2017
- ISBN:9787111569435
- 页数:443 页
第1章 绪论 1
1.1 什么是大数据 1
1.2 哪里有大数据 3
1.3 什么是大数据分析 4
1.4 大数据分析的过程、技术与难点 5
1.5 全书概览 8
小结 10
习题 10
第2章 大数据分析模型 11
2.1 大数据分析模型建立方法 11
2.2 基本统计量 13
2.2.1 全表统计量 14
2.2.2 皮尔森相关系数 15
2.3 推断统计 16
2.3.1 参数估计 16
2.3.2 假设检验 20
2.3.3 假设检验的阿里云实现 23
小结 28
习题 28
第3章 关联分析模型 30
3.1 回归分析 31
3.1.1 回归分析概述 31
3.1.2 回归模型的拓展 35
3.1.3 回归的阿里云实现 43
3.2 关联规则分析 52
3.3 相关分析 54
小结 57
习题 58
第4章 分类分析模型 60
4.1 分类分析的定义 60
4.2 判别分析的原理和方法 61
4.2.1 距离判别法 61
4.2.2 Fisher判别法 64
4.2.3 贝叶斯判别法 67
4.3 基于机器学习分类的模型 71
4.3.1 支持向量机 72
4.3.2 逻辑回归 74
4.3.3 决策树与回归树 75
4.3.4 k近邻 78
4.3.5 随机森林 78
4.3.6 朴素贝叶斯 81
4.4 分类分析实例 82
4.4.1 二分类实例 82
4.4.2 多分类实例 94
小结 101
习题 102
第5章 聚类分析模型 105
5.1 聚类分析的定义 105
5.1.1 基于距离的亲疏关系度量 105
5.1.2 基于相似系数的相似性度量 108
5.1.3 个体与类以及类间的亲疏关系度量 110
5.1.4 变量的选择与处理 111
5.2 聚类分析的分类 111
5.3 聚类有效性的评价 112
5.4 聚类分析方法概述 112
5.5 聚类分析的应用 113
5.6 聚类分析的阿里云实现 114
小结 119
习题 119
第6章 结构分析模型 122
6.1 最短路径 122
6.2 链接排名 123
6.3 结构计数 125
6.4 结构聚类 126
6.5 社团发现 128
6.5.1 社团的定义 128
6.5.2 社团的分类 128
6.5.3 社团的用途 128
6.5.4 社团的数学定义 128
6.5.5 基于阿里云的社团发现 130
小结 132
习题 133
第7章 文本分析模型 135
7.1 文本分析模型概述 135
7.2 文本分析方法概述 136
7.2.1 SplitWord 136
7.2.2 词频统计 137
7.2.3 TF-IDF 138
7.2.4 PLDA 140
7.2.5 Word2Vec 147
小结 148
习题 149
第8章 大数据分析的数据预处理 150
8.1 数据抽样和过滤 150
8.1.1 数据抽样 150
8.1.2 数据过滤 154
8.1.3 基于阿里云的抽样和过滤实现 154
8.2 数据标准化与归一化 157
8.3 数据清洗 159
8.3.1 数据质量概述 159
8.3.2 缺失值填充 160
8.3.3 实体识别与真值发现 162
8.3.4 错误发现与修复 169
小结 171
习题 171
第9章 降维 173
9.1 特征工程 173
9.1.1 特征工程概述 173
9.1.2 特征变换 175
9.1.3 特征选择 178
9.1.4 特征重要性评估 183
9.2 主成分分析 191
9.2.1 什么是主成分分析 191
9.2.2 主成分分析的计算过程 192
9.2.3 基于阿里云的主成分分析 194
9.2.4 主成分的表现度量 195
9.3 因子分析 196
9.3.1 因子分析概述 196
9.3.2 因子分析的主要分析指标 196
9.3.3 因子分析的计算方法 197
9.4 压缩感知 203
9.4.1 什么是压缩感知 203
9.4.2 压缩感知的具体模型 204
9.5 面向神经网络的降维 205
9.5.1 面向神经网络的降维方法概述 205
9.5.2 如何利用神经网络降维 206
9.6 基于特征散列的维度缩减 207
9.6.1 特征散列方法概述 207
9.6.2 特征散列算法 207
9.7 基于Lasso算法的降维 208
9.7.1 Lasso方法简介 208
9.7.2 Lasso方法 209
9.7.3 Lasso算法的适用情景 211
小结 211
习题 212
第10章 面向大数据的数据仓库系统 214
10.1 数据仓库概述 214
10.1.1 数据仓库的基本概念 214
10.1.2 数据仓库的内涵 215
10.1.3 数据仓库的基本组成 215
10.1.4 数据仓库系统的体系结构 216
10.1.5 数据仓库的建立 217
10.2 分布式数据仓库系统 221
10.2.1 基于Hadoop的数据仓库系统 221
10.2.2 Shark:基于Spark的数据仓库系统 227
10.2.3 Mesa 228
10.3 内存数据仓库系统 231
10.3.1 SAPHANA 231
10.3.2 HyPer 234
10.4 阿里云数据仓库简介 236
小结 238
习题 239
第11章 大数据分析算法 240
11.1 大数据分析算法概述 240
11.2 回归算法 242
11.3 关联规则挖掘算法 248
11.4 分类算法 255
11.4.1 二分类算法 256
11.4.2 多分类算法 273
11.5 聚类算法 283
11.5.1 k-means算法 283
11.5.2 CLARANS算法 291
小结 293
习题 293
第12章 大数据计算平台 295
12.1 Spark 295
12.1.1 Spark简介 295
12.1.2 基于Spark的大数据分析实例 296
12.2 Hyracks 299
12.2.1 Hyracks简介 299
12.2.2 基于Hyracks的大数据分析实例 299
12.3 DPark 305
12.3.1 DPark简介 305
12.3.2 基于DPark的大数据分析实例 306
12.4 HaLoop 308
12.4.1 HaLoop简介 308
12.4.2 基于HaLoop的大数据分析实例 308
12.5 MaxCompute 309
12.5.1 MaxCompute简介 309
12.5.2 MaxCompute实战案例介绍 310
12.5.3 基于MaxCompute的大数据分析实例 316
12.5.4 MaxCompute的现状及前景 320
小结 321
习题 321
第13章 流式计算平台 322
13.1 流式计算概述 322
13.1.1 流式计算的定义 322
13.1.2 流式计算的应用 322
13.1.3 流式计算平台的发展 324
13.2 Storm 324
13.2.1 Storm简介 324
13.2.2 Storm的结构 325
13.2.3 基于Storm的大数据分析实例 326
13.3 分布式流处理系统Samza 331
13.3.1 Samza简介 331
13.3.2 Samza的原理 332
13.3.3 基于Samza的大数据分析实例 334
13.4 CloudDataflow 339
13.4.1 CloudDataflow简介 339
13.4.2 CloudDataflow开发模型 340
13.4.3 CloudDataflow的应用实例 340
13.5 阿里云StreamCompute 341
13.5.1 阿里云StreamCompute的原理 341
13.5.2 基于StreamCompute的实时数据统计 342
13.5 3订单统计实例 347
小结 348
习题 349
第14章 大图计算平台 350
14.1 大图计算框架概述 350
14.2 GraphLab 350
14.2.1 GraphLab的计算模型 350
14.2.2 基于GraphLab的大图分析实例 351
14.3 Giraph 353
14.3.1 Giraph简介 353
14.3.2 Giraph的原理 353
14.3.3 Giraph的应用 354
14.3.4 基于Giraph的大图分析实例 354
14.4 Neo4j 358
14.4.1 Neo4j简介 358
14.4.2 基于Noe4j的大图分析实例 359
14.5 ApacheHama 360
14.5.1 ApacheHama简介 360
14.5.2 Apache Hama的结构 361
14.5 3 Apache Hama的工作原理 362
14.6 MaxCompute Graph 363
14.6.1 MaxComputeGraph的原理 363
14.6.2 MaxComputeGraph的使用与配置方法 364
14.5.3 基于MaxCompute Graph的大图分析实例 371
小结 376
习题 377
第15章 社交网络 378
15.1 为社交网络建模 378
15.1.1 社交网络概述 378
15.1.2 社交图 378
15.2 社交网络的结构 379
15.2.1 社交网络的统计学构成 379
15.2.2 社交网络的群体形成 381
15.3 基于社交网络语义分析的利益冲突发现 382
15.4 社交网络中的社区发现 384
15.4.1 动态社交网络中的社区识别框架 384
15.4.2 基于经验比对算法的网络社区检测 387
15.5 社交网络中的关联分析 388
15.5.1 社交网络中的关系强度模型 388
15.5.2 社交网络中“正向链接”与“负向链接”的预测 391
15.6 社交网络中的影响力预测 393
15.7 基于阿里云的社团发现实例 396
小结 403
习题 403
第16章 推荐系统 405
16.1 推荐系统概述 405
16.2 协同过滤 408
16.2.1 协同过滤简介 408
16.2.2 面向物品的协同过滤算法 408
16.2.3 改进的最近邻法 410
16.2.4 集成协同过滤方法 412
16.3 基于用户评价的推荐 413
16.4 基于人的推荐 415
16.4.1 基于用户偏好学习的在线推荐 415
16.4.2 混合推荐系统 418
16.5 基于标记的推荐 422
16.6 社交网络中的推荐 423
16.6.1 基于信号的社交网络推荐 423
16.6.2 基于在线主题的社交网络推荐 425
16.7 基于阿里云的个性推荐系统搭建 427
小结 439
习题 439
参考文献 441
- 《水面舰艇编队作战运筹分析》谭安胜著 2009
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《分析化学》陈怀侠主编 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《白雪公主分面包 分数》(韩)车宝金文 2016
- 《影响葡萄和葡萄酒中酚类特征的因素分析》朱磊 2019
- 《语文教育教学实践探索》陈德收 2018
- 《第一性原理方法及应用》李青坤著 2019
- 《计算机组成原理解题参考 第7版》张基温 2017
- 《彼得·布鲁克导演实践研究》邓小玲著 2019
- 《市政工程基础》杨岚编著 2009
- 《家畜百宝 猪、牛、羊、鸡的综合利用》山西省商业厅组织技术处编著 1959
- 《《道德经》200句》崇贤书院编著 2018
- 《高级英语阅读与听说教程》刘秀梅编著 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《思维导图 超好用英语单词书》(中国)王若琳 2019
- 《看图自学吉他弹唱教程》陈飞编著 2019
- 《法语词汇认知联想记忆法》刘莲编著 2020
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《国家社科基金项目申报规范 技巧与案例 第3版 2020》文传浩,夏宇编著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《高等教育双机械基础课程系列教材 高等学校教材 机械设计课程设计手册 第5版》吴宗泽,罗圣国,高志,李威 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017
- 《新工业时代 世界级工业家张毓强和他的“新石头记”》秦朔 2019
- 《智能制造高技能人才培养规划丛书 ABB工业机器人虚拟仿真教程》(中国)工控帮教研组 2019
- 《AutoCAD机械设计实例精解 2019中文版》北京兆迪科技有限公司编著 2019