数据馆员的SPARK简明手册PDF电子书下载
- 电子书积分:7 积分如何计算积分?
- 作 者:顾立平,马景源编著
- 出 版 社:北京:科学技术文献出版社
- 出版年份:2017
- ISBN:9787518930159
- 页数:83 页
第1章 Spark生态介绍 1
1.1 MapReduce、 Storm和Spark模型比较 1
1.2 Spark产生背景 3
1.3 Spark的内存计算框架 5
1.4 Spark Streaming:流式计算框架 6
1.5 Spark SQL 7
1.6 Spark MLlib:机器学习 8
1.7 Spark GraphX和取代Bagel的理由 8
1.8 BlinkDB 9
1.9 SparkR 9
第2章 Spark的安装与运行 10
2.1 Spark的安装 10
2.1.1 Spark的源码编译方式 10
2.1.2 Spark Standalone安装 12
2.1.3 Spark应用程序部署工具spark-submit 14
2.1.4 Spark的高可用性部署 15
2.2 Spark的运行架构 16
2.2.1 基本术语 16
2.2.2 运行架构 17
2.2.3 Spark on Standalone的运行过程 19
2.2.4 Spark on YARN的运行过程 20
2.3 Spark的运行 22
2.3.1 Spark on Standalone 22
2.3.2 Spark on YARN 22
2.3.3 Standalone与YARN模式优缺点比较 23
第3章 Spark的Scala编程 25
3.1 Scala开发环境搭建 25
3.2 Scala开发Spark应用程序 25
3.3 编程实现 26
3.3.1 使用Java编程 26
3.3.2 使用Python编程 27
第4章 Spark的编程模型和解析 28
4.1 Spark的编程模型 28
4.2 RDD的特点、操作、依赖关系 28
4.3 Spark应用程序的配置 31
4.4 Spark的架构 31
4.5 Spark的容错机制 32
4.6 数据的本地性 32
4.7 缓存策略介绍 33
4.8 宽依赖和窄依赖 35
第5章 Spark数据挖掘 38
5.1 MLlib 38
5.2 GraphX 39
5.2.1 GraphX原理 39
5.2.2 Table Operator和Graph Operator的区别 40
5.2.3 Vertices、 Edges和Triplets介绍 42
5.2.4 GraphX图构造者 43
5.3 SparkR 45
5.3.1 SparkR原理 45
5.3.2 如何运行SparkR 46
第6章 Spark Streaming 48
6.1 Spark Streaming与Storm的区别 48
6.2 Kafka的部署 49
6.3 Kafka与Spark Streaming的整合 50
6.4 Spark Streaming原理 52
6.4.1 Spark流式处理架构 52
6.4.2 DStream的特点 53
6.4.3 Dstream的操作和RDD的区别 54
6.4.4 无状态转换操作与有状态转换操作 54
6.4.5 优化Spark Streaming 55
6.5 Streaming的容错机制 56
6.6 Streaming在YARN模式下的注意事项 57
第7章 Spark优化 59
7.1 序列化优化——Kryo 59
7.2 Spark参数优化 60
7.3 Spark任务的均匀分布策略 61
7.4 Partition key倾斜的解决方案 63
7.5 Spark任务的监控 63
7.6 GC的优化 65
7.7 Spark Streaming吞吐量优化 69
7.8 Spark RDD使用内存的优化策略 70
第8章 SQL on Spark 72
8.1 BDAS数据分析软件栈 72
8.2 Spark SQL工具 74
8.3 Spark SQL原理 76
8.4 Spark SQL编程 78
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《Maya 2018完全实战技术手册》来阳编著 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《高等教育双机械基础课程系列教材 高等学校教材 机械设计课程设计手册 第5版》吴宗泽,罗圣国,高志,李威 2018
- 《慢性呼吸系统疾病物理治疗工作手册》(荷)瑞克·考斯林克(RikGosselink) 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《战略情报 情报人员、管理者和用户手册》(澳)唐·麦克道尔(Don McDowell)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《市政工程基础》杨岚编著 2009
- 《家畜百宝 猪、牛、羊、鸡的综合利用》山西省商业厅组织技术处编著 1959
- 《《道德经》200句》崇贤书院编著 2018
- 《高级英语阅读与听说教程》刘秀梅编著 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《看图自学吉他弹唱教程》陈飞编著 2019
- 《法语词汇认知联想记忆法》刘莲编著 2020
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《国家社科基金项目申报规范 技巧与案例 第3版 2020》文传浩,夏宇编著 2019
- 《流体力学》张扬军,彭杰,诸葛伟林编著 2019
- 《钒产业技术及应用》高峰,彭清静,华骏主编 2019
- 《现代水泥技术发展与应用论文集》天津水泥工业设计研究院有限公司编 2019
- 《近代世界史文献丛编 19》王强主编 2017
- 《异质性条件下技术创新最优市场结构研究 以中国高技术产业为例》千慧雄 2019
- 《Prometheus技术秘笈》百里燊 2019
- 《中央财政支持提升专业服务产业发展能力项目水利工程专业课程建设成果 设施农业工程技术》赵英编 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《药剂学实验操作技术》刘芳,高森主编 2019
- 《林下养蜂技术》罗文华,黄勇,刘佳霖主编 2017
- 《脱硝运行技术1000问》朱国宇编 2019