《Spark案例与实验教程》PDF下载

  • 购买积分:8 如何计算积分?
  • 作  者:袁景凌,熊盛武,饶文碧主编
  • 出 版 社:武汉:武汉大学出版社
  • 出版年份:2017
  • ISBN:9787307128422
  • 页数:149 页
图书介绍:本书介绍了如何使用Spark进行数据处理。主要采用了理论和案例相结合的方式,系统地介绍了Spark方面的知识:从最基本的Spark环境的安装与配置,到Spark RDD算子的基本操作,再到Spark基础实践中典型案例的实例剖析,最后到Spark生态圈,四个子框架的讲解与实践,贯穿整个Spark知识系统。各章知识间,内容由浅到深,循序渐进,从而帮助读者更好的理解和运用Spark的相关知识。本书适用于开设相关课程的高校本科生和研究生,也可以作为感兴趣读者的技术和案例资料。

第1章 Spark简介 1

1.1 知识要点 1

1.1.1 Spark概述 1

1.1.2 Spark生态系统 3

1.1.3 Spark架构 5

1.2 案例实践 8

第2章 Spark RDD算子 26

2.1 知识要点 26

2.1.1 RDD基础 26

2.1.2 键值对操作 35

2.1.3 数据读取与保存 43

2.2 案例实践 55

2.2.1 RDD API综合实战 55

2.2.2 使用Intellij Idea搭建Spark开发环境 59

第3章 Spark基础实践 69

3.1 知识要点 69

3.1.1 Scala语言 69

3.1.2 Spark Java、Python接口 70

3.1.3 Spark程序执行流程 70

3.2 案例实践 71

3.2.1 WordCount 71

3.2.2 Top K 75

3.2.3 求取中位数 78

3.2.4 倒排索引 80

3.2.5 CountOnce 83

3.2.6 倾斜连接 85

3.3 小结 89

第4章 Spark进阶实践 90

4.1 Spark SQL原理与实践 90

4.1.1 知识要点 91

4.1.2 案例实践 98

4.2 Spark Streaming流式计算框架 102

4.2.1 知识要点 102

4.2.2 案例实践 109

4.3 GraphX图计算框架 116

4.3.1 知识要点 116

4.3.2 案例实践 121

4.4 Spark MLlib机器学习库 124

4.4.1 知识要点 124

4.4.2 案例实践 131

第5章 Spark性能优化 135

5.1 知识要点 135

5.2 案例实践 136

参考文献 148