第1章 Scala光速入门 1
1.1 Scala基础与语法入门实战 1
1.1.1 Scala基本数据类型 1
1.1.2 Scala变量声明 2
1.1.3 算术操作符介绍 2
1.1.4 条件语句 5
1.1.5 循环 6
1.1.6 异常控制 8
1.2 Scala中Arra y、Map等数据结构实战 10
1.2.1 定长数组和可变数组 10
1.2.2 数组常用算法 10
1.2.3 Map映射 11
1.2.4 Tuple元组 12
1.2.5 List列表 12
1.2.6 Set集合 14
1.2.7 Scala集合方法大全 15
1.2.8 综合案例及Spark源码解析 17
1.3 小结 18
第2章 Scala面向对象彻底精通及Spark源码阅读 19
2.1 Scala面向对象详解 19
2.1.1 Scala中的class、object初介绍 19
2.1.2 主构造器与辅助构造器 22
2.1.3 类的字段和方法彻底精通 23
2.1.4 抽象类、接口的实战详解 24
2.1.5 Scala Option类详解 26
2.1.6 object的提取器 27
2.1.7 Scala的样例类实战详解 27
2.2 Scala综合案例及Spark源码解析 28
2.3 小结 29
第3章 Scala函数式编程彻底精通及Spark源码阅读 30
3.1 函数式编程概述 30
3.2 函数定义 35
3.3 函数式对象 37
3.4 本地函数 41
3.5 头等函数 42
3.6 函数字面量和占位符 43
3.6.1 Scala占位符 43
3.6.2 函数字面量 43
3.6.3 部分应用函数 44
3.7 闭包和Curring 46
3.8 高阶函数 49
3.9 从Spark源码角度解析Scala函数式编程 55
3.10 小结 57
第4章 Scala模式匹配、类型系统彻底精通与Spark源码阅读 58
4.1 模式匹配语法 58
4.2 模式匹配实战 59
4.2.1 模式匹配基础实战 59
4.2.2 数组、元祖实战 59
4.2.3 Option实战 60
4.2.4 提取器 60
4.2.5 Scala异常处理与模式匹配 61
4.2.6 sealed密封类 62
4.3 类型系统 62
4.3.1 泛型 62
4.3.2 边界 63
4.3.3 协变与逆变 63
4.4 Spark源码阅读 64
4.5 小结 65
第5章 Scala隐式转换等彻底精通及Spark源码阅读 66
5.1 隐式转换 66
5.1.1 隐式转换的使用条件 66
5.1.2 隐式转换实例 66
5.2 隐式类 68
5.3 隐式参数详解 68
5.4 隐式值 69
5.5 Spark源码阅读解析 69
5.6 小结 70
第6章 并发编程及Spark源码阅读 71
6.1 并发编程彻底详解 71
6.1.1 actor工作模型 71
6.1.2 发送消息 72
6.1.3 回复消息 74
6.1.4 actor创建 74
6.1.5 用上下文context创建actor 75
6.1.6 用ActorSystem创建actor 76
6.1.7 用匿名类创建actor 76
6.1.8 actor生命周期 77
6.1.9 终止actor 78
6.1.10 actor实战 80
6.2 小结 82
第7章 源码编译 83
7.1 Windows下源码编译 83
7.1.1 下载Spark源码 83
7.1.2 Sbt方式 84
7.1.3 Maven方式 89
7.1.4 需要注意的几个问题 90
7.2 Ubuntu下源码编译 92
7.2.1 下载Spark源码 93
7.2.2 Sbt方式 95
7.2.3 Maven方式 96
7.2.4 make-distribution.sh脚本方式 98
7.2.5 需要注意的几个问题 99
7.3 小结 100
第8章 Hadoop分布式集群环境搭建 101
8.1 搭建Hadoop单机环境 101
8.1.1 安装软件下载 101
8.1.2 Ubuntu系统的安装 101
8.1.3 Hadoop集群的安装和设置 109
8.1.4 Hadoop单机模式下运行WordCount示例 113
8.2 Hadoop伪分布式环境 115
8.2.1 Hadoop伪分布式环境搭建 115
8.2.2 Hadoop伪分布式模式下运行WordCount示例 117
8.3 Hadoop完全分布式环境 120
8.3.1 Hadoop完全分布式环境搭建 120
8.3.2 Hadoop完全分布式模式下运行WordCount示例 123
8.4 小结 125
第9章 精通Spark集群搭建与测试 127
9.1 Spark集群所需软件的安装 127
9.1.1 安装JDK 127
9.1.2 安装Scala 130
9.2 Spark环境搭建 132
9.2.1 Spark单机与单机伪分布式环境 132
9.2.2 Spark Standalone集群环境搭建与配置 135
9.2.3 Spark Standalone环境搭建的验证 136
9.3 Spark集群的测试 137
9.3.1 通过spark-shell脚本进行测试 137
9.3.2 通过spark-submit脚本进行测试 145
9.4 小结 145
第10章 Scala IDE开发Spark程序实战解析 146
10.1 Scala IDE安装 146
10.1.1 Ubuntu系统下安装 146
10.1.2 Windows系统下安装 147
10.2 ScalaIDE开发重点步骤详解 148
10.3 Wordcount创建实战 152
10.4 Spark源码导入Scala IDE 154
10.5 小结 164
第11章 实战详解IntelliJ IDEA下的Spark程序开发 165
11.1 IDEA安装 165
11.1.1 Ubuntu系统下安装 165
11.1.2 Windows系统下安装 167
11.2 IDEA开发重点步骤详解 168
11.2.1 环境配置 168
11.2.2 项目创建 170
11.2.3 Spark包引入 174
11.3 Wordcount创建实战 174
11.4 IDEA导入Spark源码 177
11.5 小结 183
第12章 Spark简介 184
12.1 Spark发展历史 184
12.2 Spark在国内外的使用 185
12.3 Spark生态系统简介 188
12.3.1 Hadoop生态系统 189
12.3.2 BDAS生态系统 195
12.3.3 其他 199
12.4 小结 199
第13章 Spark RDD解密 200
13.1 浅谈RDD 200
13.2 创建RDD的几种常用方式 204
13.3 Spark RDD API解析及其实战 206
13.4 RDD的持久化解析及其实战 217
13.5 小结 218
第14章 Spark程序之分组TopN开发实战解析 219
14.1 分组TopN动手实战 219
14.1.1 Java之分组TopN开发实战 219
14.1.2 Scala之分组TopN开发实战 226
14.2 Scala之分组TopN运行原理解密 232
14.2.1 textFile 232
14.2.2 map 234
14.2.3 groupByKey 234
14.3 小结 237
第15章 Master HA工作原理解密 238
15.1 Spark需要Master HA的原因 238
15.2 Spark Master HA的实现 238
15.3 Spark和ZOOKEEPER的协同工作机制 240
15.4 ZOOKEEPER实现应用实战 242
15.5 小结 247
第16章 Spark内核架构解密 248
16.1 Spark的运行过程 248
16.1.1 SparkContext的创建过程 248
16.1.2 Driver的注册过程 249
16.1.3 Worker中任务的执行 254
16.1.4 任务的调度过程 255
16.1.5 Job执行结果的产生 257
16.2 小结 259
第17章 Spark运行原理实战解析 260
17.1 用户提交程序Driver端解析 260
17.1.1 SparkConf解析 263
17.1.2 SparkContext解析 264
17.1.3 DAGScheduler创建 271
17.1.4 TaskScheduler创建 272
17.1.5 SchedulerBackend创建 273
17.1.6 Stage划分与TaskSet生成 274
17.1.7 任务提交 280
17.2 Spark运行架构解析 283
17.2.1 Spark基本组件介绍 283
17.2.2 Spark的运行逻辑 285
17.3 Spark在不同集群上的运行架构 291
17.3.1 Spark在Standalone模式下的运行架构 291
17.3.2 Spark on yarn的运行架构 294
17.3.3 Spark在不同模式下的应用实战 297
17.4 Spark运行架构的实战解析 300
17.5 小结 307