第1章 Spark简介 1
1.1 知识要点 1
1.1.1 Spark概述 1
1.1.2 Spark生态系统 3
1.1.3 Spark架构 5
1.2 案例实践 8
第2章 Spark RDD算子 26
2.1 知识要点 26
2.1.1 RDD基础 26
2.1.2 键值对操作 35
2.1.3 数据读取与保存 43
2.2 案例实践 55
2.2.1 RDD API综合实战 55
2.2.2 使用Intellij Idea搭建Spark开发环境 59
第3章 Spark基础实践 69
3.1 知识要点 69
3.1.1 Scala语言 69
3.1.2 Spark Java、Python接口 70
3.1.3 Spark程序执行流程 70
3.2 案例实践 71
3.2.1 WordCount 71
3.2.2 Top K 75
3.2.3 求取中位数 78
3.2.4 倒排索引 80
3.2.5 CountOnce 83
3.2.6 倾斜连接 85
3.3 小结 89
第4章 Spark进阶实践 90
4.1 Spark SQL原理与实践 90
4.1.1 知识要点 91
4.1.2 案例实践 98
4.2 Spark Streaming流式计算框架 102
4.2.1 知识要点 102
4.2.2 案例实践 109
4.3 GraphX图计算框架 116
4.3.1 知识要点 116
4.3.2 案例实践 121
4.4 Spark MLlib机器学习库 124
4.4.1 知识要点 124
4.4.2 案例实践 131
第5章 Spark性能优化 135
5.1 知识要点 135
5.2 案例实践 136
参考文献 148