Spark大数据编程基础 Scala版PDF电子书下载
- 电子书积分:13 积分如何计算积分?
- 作 者:高建良,盛羽编著
- 出 版 社:长沙:中南大学出版社
- 出版年份:2019
- ISBN:9787548735748
- 页数:371 页
第1章 Spark概述 1
1.1 Spark的背景 1
1.1.1 Spark发展史 1
1.1.2 Spark的特点 2
1.2 Spark生态系统 3
1.2.1 Spark Core 3
1.2.2 Spark SQL 4
1.2.3 Spark Streaming 4
1.2.4 GraphX 5
1.2.5 MLBase/MLlib 5
1.2.6 SparkR 5
1.3 Spark运行架构 6
1.3.1 相关术语 6
1.3.2 Spark架构 7
1.3.3 执行步骤 8
1.3.4 Spark运行模式 10
1.4 WordCount示例 13
1.4.1 三种编程语言的示例程序 13
1.4.2 Scala版本WordCount运行分析 16
1.4.3 WordCount中的类调用关系 18
1.5 本章小结 19
思考与习题 19
第2章 搭建Spark开发环境 20
2.1 Spark开发环境所需软件 20
2.2 安装Spark 21
2.2.1 spark-shell下的实例 25
2.2.2 SparkWEB的使用 26
2.3 IDEA 28
2.3.1 安装IDEA 28
2.3.2 IDEA的实例(Scala) 32
2.3.3 IDEA打包运行 37
2.4 Eclipse 40
2.4.1 安装Eclipse 40
2.4.2 Eclipse的实例(Scala) 41
2.5 本章小结 46
思考与习题 47
第3章 Scala语言基础 48
3.1 Scala简介 48
3.1.1 Scala特点 48
3.1.2 Scala运行方式 48
3.2 变量与类型 50
3.2.1 变量的定义与使用 50
3.2.2 基本数据类型和操作 56
3.2.3 Range操作 61
3.3 程序控制结构 62
3.3.1 if条件表达式 62
3.3.2 循环表达式 66
3.3.3 匹配表达式 70
3.4 集合 73
3.4.1 数组 73
3.4.2 列表 78
3.4.3 集 81
3.4.4 映射 85
3.4.5 Option 90
3.4.6 迭代器与元组 92
3.5 函数式编程 95
3.5.1 函数 95
3.5.2 占位符语法 97
3.5.3 递归函数 99
3.5.4 嵌套函数 101
3.5.5 高阶函数 102
3.5.6 高阶函数的使用 104
3.6 本章小结 108
思考与习题 108
第4章 Scala面向对象编程 110
4.1 类与对象 110
4.1.1 定义类 110
4.1.2 创建对象 111
4.1.3 类成员的访问 112
4.1.4 构造函数 113
4.1.5 常见对象类型 116
4.1.6 抽象类与匿名类 118
4.2 继承与多态 120
4.2.1 类的继承 121
4.2.2 构造函数执行顺序 124
4.2.3 方法重写 125
4.2.4 多态 127
4.3 特质(trait) 128
4.3.1 特质的使用 129
4.3.2 特质与类 132
4.3.3 多重继承 135
4.4 导入和包 137
4.4.1 包 137
4.4.2 import高级特性 138
4.5 本章小结 141
思考与习题 141
第5章 RDD编程 143
5.1 RDD基础 143
5.1.1 RDD的基本特征 143
5.1.2 依赖关系 144
5.2 创建RDD 148
5.2.1 从已有集合创建RDD 148
5.2.2 从外部存储创建RDD 149
5.3 RDD操作 150
5.3.1 Transformation操作 151
5.3.2 Action操作 159
5.3.3 不同类型RDD之间的转换 166
5.4 数据的读取与保存 168
5.5 RDD缓存与容错机制 170
5.5.1 RDD的缓存机制(持久化) 170
5.5.2 RDD检查点容错机制 173
5.6 综合实例 174
5.7 本章小结 179
思考与习题 180
第6章 Spark SQL 181
6.1 Spark SQL概述 181
6.1.1 Spark SQL架构 181
6.1.2 程序主入口SparkSession 182
6.1.3 DataFrame与RDD 184
6.2 创建DataFrame 185
6.2.1 从外部数据源创建DataFrame 185
6.2.2 RDD转换为DataFrame 199
6.3 DataFrame操作 203
6.3.1 Transformation操作 204
6.3.2 Action操作 216
6.3.3 保存操作 219
6.4 Spark SQL实例 220
6.5 本章小结 226
思考与习题 226
第7章 Spark Streaming 228
7.1 Spark Streaming工作机制 228
7.1.1 Spark Streaming工作流程 228
7.1.2 Spark Streaming处理机制 229
7.2 DStream输入源 230
7.2.1 基础输入源 230
7.2.2 高级输入源 232
7.3 DStream转换操作 233
7.3.1 无状态转换操作 233
7.3.2 有状态转换操作 234
7.4 DStream输出操作 245
7.5 Spark Streaming处理流式数据 246
7.5.1 文件流 246
7.5.2 RDD队列流 248
7.5.3 套接字流 250
7.5.4 Kafka消息队列流 251
7.6 Spark Streaming性能调优 258
7.6.1 减少批处理时间 258
7.6.2 设置适合的批次大小 259
7.6.3 优化内存使用 259
7.7 本章小结 260
思考与习题 260
第8章 Spark GraphX 261
8.1 GraphX简介 261
8.2 GraphX图存储 262
8.2.1 GraphX的RDD 262
8.2.2 GraphX图分割 264
8.3 GraphX图操作 265
8.3.1 构建图操作 266
8.3.2 基本属性操作 268
8.3.3 连接操作 270
8.3.4 转换操作 271
8.3.5 结构操作 273
8.3.6 聚合操作 274
8.3.7 缓存操作 275
8.3.8 Pregel API 276
8.4 内置的图算法 279
8.4.1 PageRank 279
8.4.2 计算三角形数 282
8.4.3 计算连通分量 284
8.4.4 标签传播算法 285
8.4.5 SVD+++ 286
8.5 GraphX实现经典图算法 288
8.5.1 Dijkstra算法 288
8.5.2 TSP问题 291
8.5.3 最小生成树问题 292
8.6 GraphX实例分析 294
8.6.1 寻找“最有影响力”论文 294
8.6.2 寻找社交媒体中的“影响力用户” 296
8.7 本章小结 298
思考与习题 299
第9章 Spark机器学习原理 300
9.1 Spark机器学习简介 300
9.2 ML Pipeline 301
9.2.1 Pipeline概念 301
9.2.2 Pipeline工作过程 302
9.2.3 Pipeline实例 303
9.3 Spark机器学习数据准备 310
9.3.1 特征提取 310
9.3.2 特征转换 314
9.3.3 特征选择 319
9.4 算法调优 326
9.4.1 模型选择 326
9.4.2 交叉验证 326
9.4.3 TrainValidationSplit 329
9.5 本章小结 331
思考与习题 331
第10章 Spark机器学习模型 332
10.1 spark.ml分类模型 332
10.1.1 spark.ml分类模型简介 332
10.1.2 朴素贝叶斯分类器 333
10.1.3 朴素贝叶斯分类器程序示例 335
10.2 回归模型 337
10.2.1 spark.ml回归模型简介 338
10.2.2 线性回归 338
10.2.3 线性回归程序示例 341
10.3 决策树 343
10.3.1 spark.ml决策树模型简介 343
10.3.2 决策树分类 345
10.3.3 决策树分类程序示例 347
10.3.4 决策树回归 350
10.3.5 决策树回归程序示例 354
10.4 聚类模型 357
10.4.1 spark.ml聚类模型简介 358
10.4.2 K-means算法示例 360
10.4.3 K-means程序示例 362
10.5 频繁模式挖掘 363
10.5.1 FP-Growth 364
10.5.2 FP-Growth算法示例 365
10.5.3 FP-Growth程序示例 367
10.6 本章小结 369
思考与习题 369
参考文献 371
- 《市政工程基础》杨岚编著 2009
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《零基础学会素描》王金著 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《生物质甘油共气化制氢基础研究》赵丽霞 2019
- 《花时间 我的第一堂花艺课 插花基础技法篇》(日)花时间编辑部编;陈洁责编;冯莹莹译 2020
- 《Photoshop CC 2018基础教程》温培利,付华编著 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《看视频零基础学英语口语》宋德伟 2019
- 《胃癌基础病理》(日)塚本彻哉编者;宫健,刘石译者 2019
- 《市政工程基础》杨岚编著 2009
- 《家畜百宝 猪、牛、羊、鸡的综合利用》山西省商业厅组织技术处编著 1959
- 《《道德经》200句》崇贤书院编著 2018
- 《高级英语阅读与听说教程》刘秀梅编著 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《看图自学吉他弹唱教程》陈飞编著 2019
- 《法语词汇认知联想记忆法》刘莲编著 2020
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《国家社科基金项目申报规范 技巧与案例 第3版 2020》文传浩,夏宇编著 2019
- 《流体力学》张扬军,彭杰,诸葛伟林编著 2019
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《大学化学实验》李爱勤,侯学会主编 2016
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017