大数据技术丛书 Spark技术内幕 深入解析Spark内核架构设计与实现原理PDF电子书下载
- 电子书积分:10 积分如何计算积分?
- 作 者:张安站著
- 出 版 社:北京:机械工业出版社
- 出版年份:2015
- ISBN:9787111509646
- 页数:202 页
第1章 Spark简介 1
1.1 Spark的技术背景 1
1.2 Spark的优点 2
1.3 Spark架构综述 4
1.4 Spark核心组件概述 5
1.4.1 Spark Streaming 5
1.4.2 MLlib 6
1.4.3 Spark SQL 7
1.4.4 GraphX 8
1.5 Spark的整体代码结构规模 8
第2章 Spark学习环境的搭建 9
2.1 源码的获取与编译 9
2.1.1 源码获取 9
2.1.2 源码编译 10
2.2 构建Spark的源码阅读环境 11
2.3 小结 15
第3章 RDD实现详解 16
3.1 概述 16
3.2 什么是RDD 17
3.2.1 RDD的创建 19
3.2.2 RDD的转换 20
3.2.3 RDD的动作 22
3.2.4 RDD的缓存 23
3.2.5 RDD的检查点 24
3.3 RDD的转换和DAG的生成 25
3.3.1 RDD的依赖关系 26
3.3.2 DAG的生成 30
3.3.3 Word Count的RDD转换和DAG划分的逻辑视图 30
3.4 RDD的计算 33
3.4.1 Task简介 33
3.4.2 Task的执行起点 33
3.4.3 缓存的处理 35
3.4.4 checkpoint的处理 37
3.4.5 RDD的计算逻辑 39
3.5 RDD的容错机制 39
3.6 小结 40
第4章 Scheduler模块详解 41
4.1 模块概述 41
4.1.1 整体架构 41
4.1.2 Scheduler的实现概述 43
4.2 DAGScheduler实现详解 45
4.2.1 DAGScheduler的创建 46
4.2.2 Job的提交 48
4.2.3 Stage的划分 49
4.2.4 任务的生成 54
4.3 任务调度实现详解 57
4.3.1 TaskScheduler的创建 57
4.3.2 Task的提交概述 58
4.3.3 任务调度具体实现 61
4.3.4 Task运算结果的处理 65
4.4 WordCount调度计算过程详解 72
4.5 小结 74
第5章 Deploy模块详解 76
5.1 Spark运行模式概述 76
5.1.1 local 77
5.1.2 Mesos 78
5.1.3 YARN 82
5.2 模块整体架构 86
5.3 消息传递机制详解 87
5.3.1 Master和Worker 87
5.3.2 Master和Client 89
5.3.3 Client和Executor 91
5.4 集群的启动 92
5.4.1 Master的启动 92
5.4.2 Worker的启动 96
5.5 集群容错处理 98
5.5.1 Master异常退出 98
5.5.2 Worker异常退出 99
5.5.3 Executor异常退出 101
5.6 Master HA实现详解 102
5.6.1 Master启动的选举和数据恢复策略 103
5.6.2 集群启动参数的配置 105
5.6.3 Curator Framework简介 106
5.6.4 ZooKeeperLeaderElectionAgent的实现 109
5.7 小结 110
第6章 Executor模块详解 112
6.1 Standalone模式的Executor分配详解 113
6.1.1 SchedulerBackend创建AppClient 114
6.1.2 AppClient向Master注册Application 116
6.1.3 Master根据AppClient的提交选择Worker 119
6.1.4 Worker根据Master的资源分配结果创建Executor 121
6.2 Task的执行 122
6.2.1 依赖环境的创建和分发 123
6.2.2 任务执行 125
6.2.3 任务结果的处理 128
6.2.4 Driver端的处理 130
6.3 参数设置 131
6.3.1 spark.executor.memory 131
6.3.2 日志相关 132
6.3.3 spark.executor.heartbeatInterval 132
6.4 小结 133
第7章 Shuffle模块详解 134
7.1 Hash Based Shuffle Write 135
7.1.1 Basic Shuffle Writer实现解析 136
7.1.2 存在的问题 138
7.1.3 Shuffle Consolidate Writer 139
7.1.4 小结 140
7.2 Shuffle Pluggable框架 141
7.2.1 org.apache.spark.shuffle.ShuffleManager 141
7.2.2 org.apache.spark.shuffle.ShuffleWriter 143
7.2.3 org.apache.spark.shuffle.ShuffleBlockManager 143
7.2.4 org.apache.spark.shuffle.ShuffleReader 144
7.2.5 如何开发自己的Shuffle机制 144
7.3 Sort Based Write 144
7.4 Shuffle Map Task运算结果的处理 148
7.4.1 Executor端的处理 148
7.4.2 Driver端的处理 150
7.5 Shuffle Read 152
7.5.1 整体流程 152
7.5.2 数据读取策略的划分 155
7.5.3 本地读取 156
7.5.4 远程读取 158
7.6 性能调优 160
7.6.1 spark.shuffle.manager 160
7.6.2 spark.shuffle.spill 162
7.6.3 spark.shuffle.memoryFraction和spark.shuffle.safetyFraction 162
7.6.4 spark.shuffle.sort.bypassMergeThreshold 163
7.6.5 spark.shuffle.blockTransferService 163
7.6.6 spark.shuffle.consolidateFiles 163
7.6.7 spark.shuffle.compress和spark.shuffle.spill.compress 164
7.6.8 spark.reducer.maxMbInFlight 165
7.7 小结 165
第8章 Storage模块详解 167
8.1 模块整体架构 167
8.1.1 整体架构 167
8.1.2 源码组织结构 170
8.1.3 Master和Slave的消息传递详解 173
8.2 存储实现详解 181
8.2.1 存储级别 181
8.2.2 模块类图 184
8.2.3 org.apache.spark.storage.DiskStore实现详解 186
8.2.4 org.apache.spark.storage.MemoryStore实现详解 188
8.2.5 org.apache.spark.storage.TachyonStore实现详解 189
8.2.6 Block存储的实现 190
8.3 性能调优 194
8.3.1 spark.local.dir 194
8.3.2 spark.executor.memory 194
8.3.3 spark.storage.memoryFraction 194
8.3.4 spark.streaming.blockInterval 195
8.4 小结 195
第9章 企业应用概述 197
9.1 Spark在百度 197
9.1.1 现状 197
9.1.2 百度开放BMR的Spark 198
9.1.3 在Spark中使用Tachyon 199
9.2 Spark在阿里 200
9.3 Spark在腾讯 200
9.4 小结 201
- 《钒产业技术及应用》高峰,彭清静,华骏主编 2019
- 《现代水泥技术发展与应用论文集》天津水泥工业设计研究院有限公司编 2019
- 《异质性条件下技术创新最优市场结构研究 以中国高技术产业为例》千慧雄 2019
- 《Prometheus技术秘笈》百里燊 2019
- 《中央财政支持提升专业服务产业发展能力项目水利工程专业课程建设成果 设施农业工程技术》赵英编 2018
- 《药剂学实验操作技术》刘芳,高森主编 2019
- 《林下养蜂技术》罗文华,黄勇,刘佳霖主编 2017
- 《脱硝运行技术1000问》朱国宇编 2019
- 《催化剂制备过程技术》韩勇责任编辑;(中国)张继光 2019
- 《信息系统安全技术管理策略 信息安全经济学视角》赵柳榕著 2020
- 《跟着莫奈画油画》樊峻,张安明著 2019
- 《邓秀水彩画集》张安吾责任编辑 1998
- 《少数民族用品资料集 图集》王琨,张安吾绘 1994
- 《UG NX 8.0工程应用实战精解》张安鹏,王妍琴主编 2013
- 《爱到点子上》边四光,张安玲著 2013
- 《字体设计的规则与艺术》(英)KAREN CHENG著;张安宇译 2014
- 《服饰配色》张安凤主编 2012
- 《时距分段加工理论与实证》尹华站著 2014
- 《生命的认识》水流职事站著 2001
- 《职业岗位中的数学计算》刘晓明,张安主编 2009
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《高等教育双机械基础课程系列教材 高等学校教材 机械设计课程设计手册 第5版》吴宗泽,罗圣国,高志,李威 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017
- 《新工业时代 世界级工业家张毓强和他的“新石头记”》秦朔 2019
- 《智能制造高技能人才培养规划丛书 ABB工业机器人虚拟仿真教程》(中国)工控帮教研组 2019
- 《AutoCAD机械设计实例精解 2019中文版》北京兆迪科技有限公司编著 2019