大数据分布式计算与案例PDF电子书下载
- 电子书积分:8 积分如何计算积分?
- 作 者:李丰主编
- 出 版 社:北京:中国人民大学出版社
- 出版年份:2016
- ISBN:9787300230276
- 页数:137 页
第1章 统计分析与并行计算 1
1.1 并行计算与并行计算机 1
1.2 统计计算的并行原理——以矩阵乘法为例 7
1.3 基于R的单机并行计算 9
1.4 基于Python的单机并行计算 10
1.5 大数据背景下的数据采集和存储 11
1.6 参考文献 14
第2章 Hadoop基础 15
2.1 Hadoop历史、生态系统 15
2.2 Hadoop的分布式文件系统(HDFS) 16
2.3 MapReduce工作原理 21
2.4 Hadoop上运行MapReduce 24
2.5 MapReduce实例:分层随机抽样 25
2.6 MapReduce实例:聚类分析 26
2.7 参考文献 30
第3章 基于Hadoop的分布式算法和模型实现 31
3.1 R中实现Hadoop分布式计算 31
3.2 Mahout与大数据机器学习 39
3.3 利用Mahout进行数据挖掘 40
3.4 Mahout实例:Logistics回归和随机森林分类算法 42
3.5 Mahout实例:随机森林的分布式实现 46
3.6 参考文献 49
第4章 统计模型的MapReduce实现详解 51
4.1 泊松回归模型:付费搜索广告分析 51
4.2 判别分析:气象因素对雾霾影响分析 58
4.3 分块Logistics回归 60
4.4 文本分类 64
4.5 朴素贝叶斯模型 68
4.6 岭回归模型 73
4.7 推荐系统 77
4.8 参考文献 80
第5章 分布式文件访问与计算 81
5.1 Hive基础 81
5.2 HiveQL数据定义(DDL) 82
5.3 HBase 89
5.4 Hive实例:FoodMart案例 92
5.5 Hive实例:Hive Streaming交互计算 95
5.6 参考文献 96
第6章 Spark与统计模型 97
6.1 Spark简介 97
6.2 Spark工作原理介绍 100
6.3 Pyspark命令介绍 103
6.4 Spark实例:通过Word Count了解Spark工作流程 107
6.5 Spark实例:二分类学习 109
6.6 Spark实例:决策树模型 114
6.7 参考文献 115
附录A Hadoop安装运行 117
A.1 单机伪分布式安装 117
A.2 全分布式集群 119
附录B Mahout安装与运行 128
附录C Hive安装运行 129
C.1 准备 129
C.2 安装Hive 129
C.3 配置Hive 130
附录D HBase安装运行 131
D.1 安装配置HBase 131
D.2 启动HBase 132
附录E Spark的配置与安装 134
E.1 安装配置Scala 134
E.2 安装配置Spark 134
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《国家社科基金项目申报规范 技巧与案例 第3版 2020》文传浩,夏宇编著 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《计算机辅助平面设计》吴轶博主编 2019
- 《计算机组成原理解题参考 第7版》张基温 2017
- 《云计算节能与资源调度》彭俊杰主编 2019
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《中学语文教学案例研究》贺卫东主编 2019
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《中国当代乡土小说文库 本乡本土》(中国)刘玉堂 2019
- 《异质性条件下技术创新最优市场结构研究 以中国高技术产业为例》千慧雄 2019
- 《中国铁路人 第三届现实主义网络文学征文大赛一等奖》恒传录著 2019
- 《莼江曲谱 2 中国昆曲博物馆藏稀见昆剧手抄曲谱汇编之一》郭腊梅主编;孙伊婷副主编;孙文明,孙伊婷编委;中国昆曲博物馆编 2018
- 《中国制造业绿色供应链发展研究报告》中国电子信息产业发展研究院 2019
- 《中国陈设艺术史》赵囡囡著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《《走近科学》精选丛书 中国UFO悬案调查》郭之文 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019