Apache Spark源码剖析PDF电子书下载
- 电子书积分:11 积分如何计算积分?
- 作 者:许鹏著
- 出 版 社:北京:电子工业出版社
- 出版年份:2015
- ISBN:9787121254208
- 页数:285 页
第一部分Spark概述 1
第1章 初识Spark 3
1.1 大数据和Spark 3
1.1.1 大数据的由来 4
1.1.2 大数据的分析 4
1.1.3 Hadoop 5
1.1.4 Spark简介 6
1.2 与Spark的第一次亲密接触 7
1.2.1 环境准备 7
1.2.2 下载安装Spark 8
1.2.3 Spark下的WordCount 8
第二部分Spark核心概念 13
第2章 Spark整体框架 15
2.1 编程模型 15
2.1.1 RDD 17
2.1.2 Operation 17
2.2 运行框架 18
2.2.1 作业提交 18
2.2.2 集群的节点构成 18
2.2.3 容错处理 19
2.2.4 为什么是Scala 19
2.3 源码阅读环境准备 19
2.3.1 源码下载及编译 19
2.3.2 源码目录结构 21
2.3.3 源码阅读工具 21
2.3.4 本章小结 22
第3章 SparkContext初始化 23
3.1 spark-shell 23
3.2 SparkContext的初始化综述 27
3.3 Spark Repl综述 30
3.3.1 Scala Repl执行过程 31
3.3.2 Spark Repl 32
第4章 Spark作业提交 33
4.1 作业提交 33
4.2 作业执行 38
4.2.1 依赖性分析及Stage划分 39
4.2.2 Actor Model和Akka 46
4.2.3 任务的创建和分发 47
4.2.4 任务执行 53
4.2.5 Checkpoint和Cache 62
4.2.6 WebUI和Metrics 62
4.3 存储机制 71
4.3.1 Shuffle结果的写入和读取 71
4.3.2 Memory Store 80
4.3.3 存储子模块启动过程分析 81
4.3.4 数据写入过程分析 82
4.3.5 数据读取过程分析 84
4.3.6 TachyonStore 88
第5章 部署方式分析 91
5.1 部署模型 91
5.2 单机模式local 92
5.3 伪集群部署local-cluster 93
5.4 原生集群Standalone Cluster 95
5.4.1 启动Master 96
5.4.2 启动Worker 97
5.4.3 运行spark-shell 102
5.4.4 容错性分析 106
5.5 Spark On YARN 112
5.5.1 YARN的编程模型 112
5.5.2 YARN中的作业提交 112
5.5.3 Spark On YARN实现详解 113
5.5.4 Sparkpi on YARN 122
第三部分Spark Lib 129
第6章 Spark Streaming 131
6.1 Spark Streaming整体架构 131
6.1.1 DStream 132
6.1.2 编程接口 133
6.1.3 Streaming WordCount 134
6.2 Spark Streaming执行过程 135
6.2.1 StreamingContext初始化过程 136
6.2.2 数据接收 141
6.2.3 数据处理 146
6.2.4 BlockRDD 155
6.3 窗口操作 158
6.4 容错性分析 159
6.5 Spark Streaming vs.Storm 165
6.5.1 Storm简介 165
6.5.2 Storm和Spark Streaming对比 168
6.6 应用举例 168
6.6.1 搭建Kafka Cluster 168
6.6.2 KafkaWordCount 169
第7章 SQL 173
7.1 SQL语句的通用执行过程分析 175
7.2 SQL On Spark的实现分析 178
7.2.1 SqlParser 178
7.2.2 Analyzer 184
7.2.3 Optimizer 191
7.2.4 SparkPlan 192
7.3 Parquet文件和JSON数据集 196
7.4 Hive简介 197
7.4.1 Hive架构 197
7.4.2 HiveQL On MapReduce执行过程分析 199
7.5 HiveQL On Spark详解 200
7.5.1 Hive On Spark环境搭建 206
7.5.2 编译支持Hadoop 2.x的Spark 211
7.5.3 运行Hive On Spark测试用例 213
第8章 GraphX 215
8.1 GraphX简介 215
8.1.1 主要特点 216
8.1.2 版本演化 216
8.1.3 应用场景 217
8.2 分布式图计算处理技术介绍 218
8.2.1 属性图 218
8.2.2 图数据的存储与分割 219
8.3 Pregel计算模型 220
8.3.1 BSP 220
8.3.2 像顶点一样思考 220
8.4 GraphX图计算框架实现分析 223
8.4.1 基本概念 223
8.4.2 图的加载与构建 226
8.4.3 图数据存储与分割 227
8.4.4 操作接口 228
8.4.5 Pregel在GraphX中的源码实现 230
8.5 PageRank 235
8.5.1 什么是PageRank 235
8.5.2 PageRank核心思想 235
第9章 MLLib 239
9.1 线性回归 239
9.1.1 数据和估计 240
9.1.2 线性回归参数求解方法 240
9.1.3 正则化 245
9.2 线性回归的代码实现 246
9.2.1 简单示例 246
9.2.2 入口函数train 247
9.2.3 最优化算法optimizer 249
9.2.4 权重更新update 256
9.2.5 结果预测predict 257
9.3 分类算法 257
9.3.1 逻辑回归 258
9.3.2 支持向量机 260
9.4 拟牛顿法 261
9.4.1 数学原理 261
9.4.2 代码实现 265
9.5 MLLib与其他应用模块间的整合 268
第四部分 附录 271
附录A Spark源码调试 273
附录B源码阅读技巧 283
- 《英汉翻译理论的多维阐释及应用剖析》常瑞娟著 2019
- 《人类文明因你而辉煌:诺贝尔奖历史追踪与剖析》吴乃优编著 2019
- 《深度剖析APACHE DUBBO核心技术内幕》翟陆续(加多)著 2019
- 《2019注册电气工程师执业职格考试专业基础考点剖析与真题详解》龚静主编 2019
- 《应用型本科规划教材 外贸函电实战 情境仿真+案例剖析》李为主编 2014
- 《上市公司典型违规案例剖析》信公咨询编 2017
- 《SDN核心技术剖析和实战指南》雷葆华编著 2013
- 《剖析油画的奥秘 写实人像》谭建武著 2013
- 《败仗的含金量 创业事故个案剖析》《创业天下》杂志编 2012
- 《教育“顽症”剖析 片面追求升学率原因、后果及对策的调查研究》“片面追求升学率原因、后果及对策”课题组编 1992
- 《精准扶贫精准脱贫百村调研》廖永松,张宗帅,韦鹏著 2018
- 《陋室漫笔》靳树鹏著 2004
- 《英语高效教学论》陈自鹏著 2018
- 《流浪,在俄罗斯最美的风景里》牟鹏著 2019
- 《春阳》杨鹏著 2019
- 《自慢》何飞鹏著 2018
- 《清代驿站考》刘文鹏著 2019
- 《思维导图实战派》汪志鹏著 2020
- 《撒尼秘境》黄恩鹏著 2019
- 《自驾,横穿美国大陆》牟鹏著 2019
- 《电子测量与仪器》人力资源和社会保障部教材办公室组织编写 2009
- 《少儿电子琴入门教程 双色图解版》灌木文化 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《通信电子电路原理及仿真设计》叶建芳 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《电子应用技术项目教程 第3版》王彰云 2019
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017