Spark数据分析PDF电子书下载
- 电子书积分:11 积分如何计算积分?
- 作 者:(澳)杰夫瑞·艾文(Jeffrey Aven)著
- 出 版 社:北京:机械工业出版社
- 出版年份:2019
- ISBN:9787111620037
- 页数:277 页
第一部分 Spark基础 3
第1章 大数据、Hadoop、Spark介绍 3
1.1 大数据、分布式计算、Hadoop简介 3
1.1.1 大数据与Hadoop简史 4
1.1.2 Hadoop详解 5
1.2 Apache Spark简介 11
1.2.1 Apache Spark背景 11
1.2.2 Spark的用途 12
1.2.3 Spark编程接口 12
1.2.4 Spark程序的提交类型 12
1.2.5 Spark应用程序的输入输出类型 14
1.2.6 Spark中的RDD 14
1.2.7 Spark与Hadoop 14
1.3 Python函数式编程 15
1.3.1 Python函数式编程用到的数据结构 15
1.3.2 Python对象序列化 18
1.3.3 Python函数式编程基础 21
1.4 本章小结 23
第2章 部署Spark 25
2.1 Spark部署模式 25
2.1.1 本地模式 26
2.1.2 Spark独立集群 26
2.1.3 基于YARN运行Spark 27
2.1.4 基于Mesos运行Spark 28
2.2 准备安装Spark 28
2.3 获取Spark 29
2.4 在Linux或Mac OS X上安装Spark 30
2.5 在Windows上安装Spark 32
2.6 探索Spark安装目录 34
2.7 部署多节点的Spark独立集群 35
2.8 在云上部署Spark 37
2.8.1 AWS 37
2.8.2 GCP 39
2.8.3 Databricks 40
2.9 本章小结 41
第3章 理解Spark集群架构 43
3.1 Spark应用中的术语 43
3.1.1 Spark驱动器 44
3.1.2 Spark工作节点与执行器 47
3.1.3 Spark主进程与集群管理器 49
3.2 使用独立集群的Spark应用 51
3.3 在YARN上运行Spark应用的部署模式 51
3.3.1 客户端模式 52
3.3.2 集群模式 53
3.3.3 回顾本地模式 54
3.4 本章小结 55
第4章 Spark编程基础 57
4.1 RDD简介 57
4.2 加载数据到RDD 59
4.2.1 从文件创建RDD 59
4.2.2 从文本文件创建RDD的方法 61
4.2.3 从对象文件创建RDD 64
4.2.4 从数据源创建RDD 64
4.2.5 从JSON文件创建RDD 67
4.2.6 通过编程创建RDD 69
4.3 RDD操作 70
4.3.1 RDD核心概念 70
4.3.2 基本的RDD转化操作 75
4.3.3 基本的RDD行动操作 79
4.3.4 键值对RDD的转化操作 83
4.3.5 MapReduce与单词计数练习 90
4.3.6 连接操作 93
4.3.7 在Spark中连接数据集 98
4.3.8 集合操作 101
4.3.9 数值型RDD的操作 103
4.4 本章小结 106
第二部分 基础拓展 109
第5章 Spark核心API高级编程 109
5.1 Spark中的共享变量 109
5.1.1 广播变量 110
5.1.2 累加器 114
5.1.3 练习:使用广播变量和累加器 117
5.2 Spark中的数据分区 118
5.2.1 分区概述 118
5.2.2 掌控分区 119
5.2.3 重分区函数 121
5.2.4 针对分区的API方法 123
5.3 RDD的存储选项 125
5.3.1 回顾RDD谱系 125
5.3.2 RDD存储选项 126
5.3.3 RDD缓存 129
5.3.4 持久化RDD 129
5.3.5 选择何时持久化或缓存RDD 132
5.3.6 保存RDD检查点 132
5.3.7 练习:保存RDD检查点 134
5.4 使用外部程序处理RDD 136
5.5 使用Spark进行数据采样 137
5.6 理解Spark应用与集群配置 139
5.6.1 Spark环境变量 139
5.6.2 Spark配置属性 143
5.7 Spark优化 146
5.7.1 早过滤,勤过滤 147
5.7.2 优化满足结合律的操作 147
5.7.3 理解函数和闭包的影响 149
5.7.4 收集数据的注意事项 150
5.7.5 使用配置参数调节和优化应用 150
5.7.6 避免低效的分区 151
5.7.7 应用性能问题诊断 153
5.8 本章小结 157
第6章 使用Spark进行SQL与NoSQL编程 159
6.1 Spark SQL简介 159
6.1.1 Hive简介 160
6.1.2 Spark SQL架构 164
6.1.3 DataFrame入门 166
6.1.4 使用DataFrame 177
6.1.5 DataFrame缓存、持久化与重新分区 185
6.1.6 保存DataFrame输出 186
6.1.7 访问Spark SQL 189
6.1.8 练习:使用Spark SQL 192
6.2 在Spark中使用NoSQL系统 193
6.2.1 NoSQL简介 194
6.2.2 在Spark中使用HBase 195
6.2.3 练习:在Spark中使用HBase 198
6.2.4 在Spark中使用Cassandra 200
6.2.5 在Spark中使用DynamoDB 202
6.2.6 其他NoSQL平台 204
6.3 本章小结 204
第7章 使用Spark处理流数据与消息 207
7.1 Spark Streaming简介 207
7.1.1 Spark Streaming架构 208
7.1.2 DStream简介 209
7.1.3 练习:Spark Streaming入门 216
7.1.4 状态操作 217
7.1.5 滑动窗口操作 219
7.2 结构化流处理 221
7.2.1 结构化流处理数据源 222
7.2.2 结构化流处理的数据输出池 223
7.2.3 输出模式 224
7.2.4 结构化流处理操作 225
7.3 在Spark中使用消息系统 226
7.3.1 Apache Kafka 227
7.3.2 练习:在Spark中使用Kafka 232
7.3.3 亚马逊Kinesis 235
7.4 本章小结 238
第8章 Spark数据科学与机器学习简介 241
8.1 Spark与R语言 241
8.1.1 R语言简介 242
8.1.2 通过R语言使用Spark 248
8.1.3 练习:在RStudio中使用SparkR 255
8.2 Spark机器学习 257
8.2.1 机器学习基础 257
8.2.2 使用Spark MLlib进行机器学习 260
8.2.3 练习:使用Spark MLlib实现推荐器 265
8.2.4 使用Spark ML进行机器学习 269
8.3 利用笔记本使用Spark 273
8.3.1 利用Jupyter(IPython)笔记本使用Spark 273
8.3.2 利用Apache Zeppelin笔记本使用Spark 276
8.4 本章小结 277
- 《水面舰艇编队作战运筹分析》谭安胜著 2009
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《分析化学》陈怀侠主编 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《影响葡萄和葡萄酒中酚类特征的因素分析》朱磊 2019
- 《仪器分析技术 第2版》曹国庆 2018
- 《全国普通高等中医药院校药学类专业十三五规划教材 第二轮规划教材 分析化学实验 第2版》池玉梅 2018
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《超级参与者》王金强责编;赵磊译者;(澳)杰里米·海曼斯,(英)亨利·蒂姆斯 2020
- 《战略情报 情报人员、管理者和用户手册》(澳)唐·麦克道尔(Don McDowell)著 2019
- 《莎莎有颗重重的心》(澳)彼得·卡纳沃斯著 2018
- 《Cassandra权威指南 第2版》(美)杰夫·卡彭特(Jeff Carpenter),(美)埃本·休伊特(Eben Hewitt) 2019
- 《工作-家庭支持氛围影响机制的实证研究》刘崇瑞 2019
- 《如何指导博士生学术写作 给导师的教学法》(澳)芭芭拉·凯姆勒(Barbara Kamler),帕特·托马斯(Pat Thomson)著 2020
- 《大众汽车维修资料全书 2008-2018款车型》瑞佩尔主编 2019
- 《钱德拉教授追寻幸福的旅行》(英)拉杰夫·巴卢(RajeevBalasubramanyam) 2020
- 《“英皇”考级 快速学会视唱》(澳)萨曼莎·科茨 2019
- 《课堂行为管理指南》(澳)比尔·罗杰斯 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《高等教育双机械基础课程系列教材 高等学校教材 机械设计课程设计手册 第5版》吴宗泽,罗圣国,高志,李威 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017
- 《新工业时代 世界级工业家张毓强和他的“新石头记”》秦朔 2019
- 《智能制造高技能人才培养规划丛书 ABB工业机器人虚拟仿真教程》(中国)工控帮教研组 2019
- 《AutoCAD机械设计实例精解 2019中文版》北京兆迪科技有限公司编著 2019