Spark快速数据处理PDF电子书下载
- 电子书积分:8 积分如何计算积分?
- 作 者:(美)凯洛著
- 出 版 社:北京:机械工业出版社
- 出版年份:2014
- ISBN:9787111463115
- 页数:116 页
第1章 安装Spark以及构建Spark集群 1
1.1单机运行Spark 4
1.2在EC2上运行Spark 5
1.3在ElasticMapReduce上部署Spark 11
1.4用Chef(opscode)部署Spark 12
1.5在Mesos上部署Spark 14
1.6在Yam上部署Spark 15
1.7通过SSH部署集群 16
1.8链接和参考 21
1.9小结 21
第2章Spark shell的使用 23
2.1加载一个简单的text文件 24
2.2用Spark shell运行逻辑回归 26
2.3交互式地从S3加载数据 28
2.4小结 30
第3章 构建并运行Spark应用 31
3.1用sbt构建Spark作业 32
3.2用Maven构建Spark作业 36
3.3用其他工具构建Spark作业 39
3.4小结 39
第4章 创建SparkContext 41
4.1 Scala 43
4.2 Java 43
4.3 Java和Scala共享的API 44
4.4 Python 45
4.5链接和参考 45
4.6小结 46
第5章 加载与保存数据 47
5.1 RDD 48
5.2加载数据到RDD中 49
5.3保存数据 54
5.4连接和参考 55
5.5小结 55
第6章 操作RDD 57
6.1用Scala和Java操作RDD 58
6.2用Python操作RDD 79
6.3链接和参考 83
6.4小结 84
第7章Shark-Hive和Spark的综合运用 85
7.1为什么用Hive/Shark 86
7.2安装Shark 86
7.3运行Shark 88
7.4加载数据 88
7.5在Spark程序中运行HiveQL查询 89
7.6链接和参考 92
7.7小结 93
第8章 测试 95
8.1用Java和Scala测试 96
8.2用Python测试 103
8.3链接和参考 104
8.4小结 105
第9章 技巧和窍门 107
9.1日志位置 108
9.2并发限制 108
9.3内存使用与垃圾回收 109
9.4序列化 110
9.5 IDE集成环境 111
9.6 Spark与其他语言 112
9.7安全提示 113
9.8邮件列表 113
9.9链接和参考 113
9.10小结 114
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《穿越数据的迷宫 数据管理执行指南》Laura Sebastian-Coleman 2020
- 《大数据环境下的信息管理方法技术与服务创新丛书 俄罗斯档案事业改革与发展研究》徐胡乡责编;肖秋会 2019
- 《Access数据库系统设计与应用教程》李勇帆,廖瑞华主编 2019
- 《并行数据挖掘及性能优化》荀亚玲著 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《高等教育双机械基础课程系列教材 高等学校教材 机械设计课程设计手册 第5版》吴宗泽,罗圣国,高志,李威 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017
- 《新工业时代 世界级工业家张毓强和他的“新石头记”》秦朔 2019
- 《智能制造高技能人才培养规划丛书 ABB工业机器人虚拟仿真教程》(中国)工控帮教研组 2019
- 《AutoCAD机械设计实例精解 2019中文版》北京兆迪科技有限公司编著 2019