当前位置:首页 > 工业技术
Spark大数据编程基础  Scala版
Spark大数据编程基础  Scala版

Spark大数据编程基础 Scala版PDF电子书下载

工业技术

  • 电子书积分:13 积分如何计算积分?
  • 作 者:高建良,盛羽编著
  • 出 版 社:长沙:中南大学出版社
  • 出版年份:2019
  • ISBN:9787548735748
  • 页数:371 页
图书介绍:本书主要内容包括:Spark大数据编程环境、Spark 工作机制、Spark SQL编程、SparkStreaming流式编程、Spark Graphx 图编程等。已有Spark大数据编程类书籍以讲解概念为主,本书将首次将Spark大数据真正落到实处,提供一个个具体的编程实例,全部由作者动手调试成功,并随书附送。除了通用的Spark编程,本书还结合数据仓库、流式计算、图计算、机器学习讲解最新的编程技术,既站在大数据编程的最前沿,有具有很好可操作性。
《Spark大数据编程基础 Scala版》目录

第1章 Spark概述 1

1.1 Spark的背景 1

1.1.1 Spark发展史 1

1.1.2 Spark的特点 2

1.2 Spark生态系统 3

1.2.1 Spark Core 3

1.2.2 Spark SQL 4

1.2.3 Spark Streaming 4

1.2.4 GraphX 5

1.2.5 MLBase/MLlib 5

1.2.6 SparkR 5

1.3 Spark运行架构 6

1.3.1 相关术语 6

1.3.2 Spark架构 7

1.3.3 执行步骤 8

1.3.4 Spark运行模式 10

1.4 WordCount示例 13

1.4.1 三种编程语言的示例程序 13

1.4.2 Scala版本WordCount运行分析 16

1.4.3 WordCount中的类调用关系 18

1.5 本章小结 19

思考与习题 19

第2章 搭建Spark开发环境 20

2.1 Spark开发环境所需软件 20

2.2 安装Spark 21

2.2.1 spark-shell下的实例 25

2.2.2 SparkWEB的使用 26

2.3 IDEA 28

2.3.1 安装IDEA 28

2.3.2 IDEA的实例(Scala) 32

2.3.3 IDEA打包运行 37

2.4 Eclipse 40

2.4.1 安装Eclipse 40

2.4.2 Eclipse的实例(Scala) 41

2.5 本章小结 46

思考与习题 47

第3章 Scala语言基础 48

3.1 Scala简介 48

3.1.1 Scala特点 48

3.1.2 Scala运行方式 48

3.2 变量与类型 50

3.2.1 变量的定义与使用 50

3.2.2 基本数据类型和操作 56

3.2.3 Range操作 61

3.3 程序控制结构 62

3.3.1 if条件表达式 62

3.3.2 循环表达式 66

3.3.3 匹配表达式 70

3.4 集合 73

3.4.1 数组 73

3.4.2 列表 78

3.4.3 集 81

3.4.4 映射 85

3.4.5 Option 90

3.4.6 迭代器与元组 92

3.5 函数式编程 95

3.5.1 函数 95

3.5.2 占位符语法 97

3.5.3 递归函数 99

3.5.4 嵌套函数 101

3.5.5 高阶函数 102

3.5.6 高阶函数的使用 104

3.6 本章小结 108

思考与习题 108

第4章 Scala面向对象编程 110

4.1 类与对象 110

4.1.1 定义类 110

4.1.2 创建对象 111

4.1.3 类成员的访问 112

4.1.4 构造函数 113

4.1.5 常见对象类型 116

4.1.6 抽象类与匿名类 118

4.2 继承与多态 120

4.2.1 类的继承 121

4.2.2 构造函数执行顺序 124

4.2.3 方法重写 125

4.2.4 多态 127

4.3 特质(trait) 128

4.3.1 特质的使用 129

4.3.2 特质与类 132

4.3.3 多重继承 135

4.4 导入和包 137

4.4.1 包 137

4.4.2 import高级特性 138

4.5 本章小结 141

思考与习题 141

第5章 RDD编程 143

5.1 RDD基础 143

5.1.1 RDD的基本特征 143

5.1.2 依赖关系 144

5.2 创建RDD 148

5.2.1 从已有集合创建RDD 148

5.2.2 从外部存储创建RDD 149

5.3 RDD操作 150

5.3.1 Transformation操作 151

5.3.2 Action操作 159

5.3.3 不同类型RDD之间的转换 166

5.4 数据的读取与保存 168

5.5 RDD缓存与容错机制 170

5.5.1 RDD的缓存机制(持久化) 170

5.5.2 RDD检查点容错机制 173

5.6 综合实例 174

5.7 本章小结 179

思考与习题 180

第6章 Spark SQL 181

6.1 Spark SQL概述 181

6.1.1 Spark SQL架构 181

6.1.2 程序主入口SparkSession 182

6.1.3 DataFrame与RDD 184

6.2 创建DataFrame 185

6.2.1 从外部数据源创建DataFrame 185

6.2.2 RDD转换为DataFrame 199

6.3 DataFrame操作 203

6.3.1 Transformation操作 204

6.3.2 Action操作 216

6.3.3 保存操作 219

6.4 Spark SQL实例 220

6.5 本章小结 226

思考与习题 226

第7章 Spark Streaming 228

7.1 Spark Streaming工作机制 228

7.1.1 Spark Streaming工作流程 228

7.1.2 Spark Streaming处理机制 229

7.2 DStream输入源 230

7.2.1 基础输入源 230

7.2.2 高级输入源 232

7.3 DStream转换操作 233

7.3.1 无状态转换操作 233

7.3.2 有状态转换操作 234

7.4 DStream输出操作 245

7.5 Spark Streaming处理流式数据 246

7.5.1 文件流 246

7.5.2 RDD队列流 248

7.5.3 套接字流 250

7.5.4 Kafka消息队列流 251

7.6 Spark Streaming性能调优 258

7.6.1 减少批处理时间 258

7.6.2 设置适合的批次大小 259

7.6.3 优化内存使用 259

7.7 本章小结 260

思考与习题 260

第8章 Spark GraphX 261

8.1 GraphX简介 261

8.2 GraphX图存储 262

8.2.1 GraphX的RDD 262

8.2.2 GraphX图分割 264

8.3 GraphX图操作 265

8.3.1 构建图操作 266

8.3.2 基本属性操作 268

8.3.3 连接操作 270

8.3.4 转换操作 271

8.3.5 结构操作 273

8.3.6 聚合操作 274

8.3.7 缓存操作 275

8.3.8 Pregel API 276

8.4 内置的图算法 279

8.4.1 PageRank 279

8.4.2 计算三角形数 282

8.4.3 计算连通分量 284

8.4.4 标签传播算法 285

8.4.5 SVD+++ 286

8.5 GraphX实现经典图算法 288

8.5.1 Dijkstra算法 288

8.5.2 TSP问题 291

8.5.3 最小生成树问题 292

8.6 GraphX实例分析 294

8.6.1 寻找“最有影响力”论文 294

8.6.2 寻找社交媒体中的“影响力用户” 296

8.7 本章小结 298

思考与习题 299

第9章 Spark机器学习原理 300

9.1 Spark机器学习简介 300

9.2 ML Pipeline 301

9.2.1 Pipeline概念 301

9.2.2 Pipeline工作过程 302

9.2.3 Pipeline实例 303

9.3 Spark机器学习数据准备 310

9.3.1 特征提取 310

9.3.2 特征转换 314

9.3.3 特征选择 319

9.4 算法调优 326

9.4.1 模型选择 326

9.4.2 交叉验证 326

9.4.3 TrainValidationSplit 329

9.5 本章小结 331

思考与习题 331

第10章 Spark机器学习模型 332

10.1 spark.ml分类模型 332

10.1.1 spark.ml分类模型简介 332

10.1.2 朴素贝叶斯分类器 333

10.1.3 朴素贝叶斯分类器程序示例 335

10.2 回归模型 337

10.2.1 spark.ml回归模型简介 338

10.2.2 线性回归 338

10.2.3 线性回归程序示例 341

10.3 决策树 343

10.3.1 spark.ml决策树模型简介 343

10.3.2 决策树分类 345

10.3.3 决策树分类程序示例 347

10.3.4 决策树回归 350

10.3.5 决策树回归程序示例 354

10.4 聚类模型 357

10.4.1 spark.ml聚类模型简介 358

10.4.2 K-means算法示例 360

10.4.3 K-means程序示例 362

10.5 频繁模式挖掘 363

10.5.1 FP-Growth 364

10.5.2 FP-Growth算法示例 365

10.5.3 FP-Growth程序示例 367

10.6 本章小结 369

思考与习题 369

参考文献 371

返回顶部