大数据技术丛书 Spark与Hadoop大数据分析PDF电子书下载
- 电子书积分:10 积分如何计算积分?
- 作 者:(美)文卡特·安卡姆著;吴今朝译
- 出 版 社:北京:机械工业出版社
- 出版年份:2017
- ISBN:9787111569414
- 页数:234 页
第1章 从宏观视角看大数据分析 1
1.1大数据分析以及Hadoop和Spark在其中承担的角色 3
1.1.1典型大数据分析项目的生命周期 4
1.1.2 Hadoop和Spark承担的角色 6
1.2大数据科学以及Hadoop和Spark在其中承担的角色 6
1.2.1从数据分析到数据科学的根本性转变 6
1.2.2典型数据科学项目的生命周期 8
1.2.3 Hadoop和Spark承担的角色 9
1.3工具和技术 9
1.4实际环境中的用例 11
1.5小结 12
第2章Apache Hadoop和Apache Spark入门 13
2.1 Apache Hadoop概述 13
2.1.1 Hadoop分布式文件系统 14
2.1.2 HDFS的特性 15
2.1.3 MapReduce 16
2.1.4 MapReduce的特性 17
2.1.5 MapReduce v1与MapReduce v2对比 17
2.1.6 YARN 18
2.1.7 Hadoop上的存储选择 20
2.2 Apache Spark概述 24
2.2.1 Spark的发展历史 24
2.2.2 Apache Spark是什么 25
2.2.3 Apache Spark不是什么 26
2.2.4 MapReduce的问题 27
2.2.5 Spark的架构 28
2.3为何把Hadoop和Spark结合使用 31
2.3.1 Hadoop的特性 31
2.3.2 Spark的特性 31
2.4安装Hadoop和Spark集群 33
2.5小结 36
第3章 深入剖析Apache Spark 37
3.1启动Spark守护进程 37
3.1.1使用CDH 38
3.1.2使用HDP、 MapR和Spark预制软件包 38
3.2学习Spark的核心概念 39
3.2.1使用Spark的方法 39
3.2.2弹性分布式数据集 41
3.2.3 Spark环境 43
3.2.4变换和动作 44
3.2.5 RDD中的并行度 46
3.2.6延迟评估 49
3.2.7谱系图 50
3.2.8序列化 51
3.2.9在Spark中利用Hadoop文件格式 52
3.2.10数据的本地性 53
3.2.11共享变量 54
3.2.12键值对RDD 55
3.3 Spark程序的生命周期 55
3.3.1流水线 57
3.3.2 Spark执行的摘要 58
3.4 Spark应用程序 59
3.4.1 Spark Shell和Spark应用程序 59
3.4.2创建Spark环境 59
3.4.3 SparkConf 59
3.4.4 SparkSubmit 60
3.4.5 Spark配置项的优先顺序 61
3.4.6重要的应用程序配置 61
3.5持久化与缓存 62
3.5.1存储级别 62
3.5.2应该选择哪个存储级别 63
3.6 Spark资源管理器:Standalone、YARN和Mesos 63
3.6.1本地和集群模式 63
3.6.2集群资源管理器 64
3.7小结 67
第4章 利用Spark SQL、 Data-Frame和Dataset进行大数据分析 69
4.1 Spark SQL的发展史 70
4.2 Spark SQL的架构 71
4.3介绍Spark SQL的四个组件 72
4.4 DataFrame和Dataset的演变 74
4.4.1 RDD有什么问题 74
4.4.2 RDD变换与Dataset和DataFrame变换 75
4.5为什么要使用Dataset和DataFrame 75
4.5.1优化 76
4.5.2速度 76
4.5.3自动模式发现 77
4.5.4多数据源,多种编程语言 77
4.5.5 RDD和其他API之间的互操作性 77
4.5.6仅选择和读取必要的数据 78
4.6何时使用RDD、Dataset和DataFrame 78
4.7利用DataFrame进行分析 78
4.7.1创建SparkSession 79
4.7.2创建DataFrame 79
4.7.3把DataFrame转换为RDD 82
4.7.4常用的Dataset/DataFrame操作 83
4.7.5缓存数据 84
4.7.6性能优化 84
4.8利用Dataset API进行分析 85
4.8.1创建Dataset 85
4.8.2把DataFrame转换为Dataset 86
4.8.3利用数据字典访问元数据 87
4.9 Data Sources API 87
4.9.1读和写函数 88
4.9.2内置数据源 88
4.9.3外部数据源 93
4.10把Spark SQL作为分布式SQL引擎 97
4.10.1把Spark SQL的Thrift服务器用于JDBC/ODBC访问 97
4.10.2使用beeline客户端查询数据 98
4.10.3使用spark-sql CLI从Hive查询数据 99
4.10.4与BI工具集成 100
4.11 Hive on Spark 100
4.12小结 100
第5章 利用Spark Streaming和Structured Streaming进行实时分析 102
5.1实时处理概述 103
5.1.1 Spark Streaming的优缺点 104
5.1.2 Spark Streaming的发展史 104
5.2 Spark Streaming的架构 104
5.2.1 Spark Streaming应用程序流 106
5.2.2无状态和有状态的流处理 107
5.3 Spark Streaming的变换和动作 109
5.3.1 union 109
5.3.2 join 109
5.3.3 transform操作 109
5.3.4 updateStateByKey 109
5.3.5 mapWithState 110
5.3.6窗口操作 110
5.3.7输出操作 111
5.4输入数据源和输出存储 111
5.4.1基本数据源 112
5.4.2高级数据源 112
5.4.3自定义数据源 112
5.4.4接收器的可靠性 112
5.4.5输出存储 113
5.5使用Kafka和HBase的Spark Streaming 113
5.5.1基于接收器的方法 114
5.5.2直接方法(无接收器) 116
5.5.3与HBase集成 117
5.6 Spark Streaming的高级概念 118
5.6.1使用DataFrame 118
5.6.2 MLlib操作 119
5.6.3缓存/持久化 119
5.6.4 Spark Streaming中的容错机制 119
5.6.5 Spark Streaming应用程序的性能调优 121
5.7监控应用程序 122
5.8结构化流概述 123
5.8.1结构化流应用程序的工作流 123
5.8.2流式Dataset和流式DataFrame 125
5.8.3流式Dataset和流式DataFrame的操作 126
5.9小结 129
第6章 利用Spark和Hadoop的笔记本与数据流 130
6.1基于网络的笔记本概述 130
6.2 Jupyter概述 131
6.2.1安装Jupyter 132
6.2.2用Jupyter进行分析 134
6.3 Apache Zeppelin概述 135
6.3.1 Jupyter和Zeppelin对比 136
6.3.2安装Apache Zeppelin 137
6.3.3使用Zeppelin进行分析 139
6.4 Livy REST作业服务器和Hue笔记本 140
6.4.1安装设置Livy服务器和Hue 141
6.4.2使用Livy服务器 142
6.4.3 Livy和Hue笔记本搭配使用 145
6.4.4 Livy和Zeppelin搭配使用 148
6.5用于数据流的Apache NiFi概述 148
6.5.1安装Apache NiFi 148
6.5.2把NiFi用于数据流和分析 149
6.6小结 152
第7章 利用Spark和Hadoop进行机器学习 153
7.1机器学习概述 153
7.2在Spark和Hadoop上进行机器学习 154
7.3机器学习算法 155
7.3.1有监督学习 156
7.3.2无监督学习 156
7.3.3推荐系统 157
7.3.4特征提取和变换 157
7.3.5优化 158
7.3.6 Spark MLlib的数据类型 158
7.4机器学习算法示例 160
7.5构建机器学习流水线 163
7.5.1流水线工作流的一个示例 163
7.5.2构建一个ML流水线 164
7.5.3保存和加载模型 166
7.6利用H2O和Spark进行机器学习 167
7.6.1为什么使用Sparkling Water 167
7.6.2 YARN上的一个应用程序流 167
7.6.3 Sparkling Water入门 168
7.7 Hivemall概述 169
7.8 Hivemall for Spark概述 170
7.9小结 170
第8章 利用Spark和Mahout构建推荐系统 171
8.1构建推荐系统 171
8.1.1基于内容的过滤 172
8.1.2协同过滤 172
8.2推荐系统的局限性 173
8.3用MLlib实现推荐系统 173
8.3.1准备环境 174
8.3.2创建RDD 175
8.3.3利用DataFrame探索数据 176
8.3.4创建训练和测试数据集 178
8.3.5创建一个模型 178
8.3.6做出预测 179
8.3.7利用测试数据对模型进行评估 179
8.3.8检查模型的准确度 180
8.3.9显式和隐式反馈 181
8.4 Mahout和Spark的集成 181
8.4.1安装Mahout 181
8.4.2探索Mahout shell 182
8.4.3利用Mahout和搜索工具构建一个通用的推荐系统 186
8.5小结 189
第9章 利用GraphX进行图分析 190
9.1图处理概述 190
9.1.1图是什么 191
9.1.2图数据库和图处理系统 191
9.1.3 GraphX概述 192
9.1.4图算法 192
9.2 GraphX入门 193
9.2.1 GraphX的基本操作 193
9.2.2图的变换 198
9.2.3 GraphX算法 202
9.3利用GraphX分析航班数据 205
9.4 GraphFrames概述 209
9.4.1模式发现 211
9.4.2加载和保存GraphFrames 212
9.5小结 212
第10章 利用SparkR进行交互式分析 213
10.1 R语言和SparkR概述 213
10.1.1 R语言是什么 214
10.1.2 SparkR概述 214
10.1.3 SparkR架构 216
10.2 SparkR入门 216
10.2.1安装和配置R 216
10.2.2使用SparkR shell 218
10.2.3使用SparkR脚本 222
10.3在SparkR里使用DataFrame 223
10.4在RStudio里使用SparkR 228
10.5利用SparkR进行机器学习 230
10.5.1利用朴素贝叶斯模型 230
10.5.2利用K均值模型 232
10.6在Zeppelin里使用SparkR 233
10.7小结 234
- 《水面舰艇编队作战运筹分析》谭安胜著 2009
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《分析化学》陈怀侠主编 2019
- 《《走近科学》精选丛书 中国UFO悬案调查》郭之文 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《影响葡萄和葡萄酒中酚类特征的因素分析》朱磊 2019
- 《新编历史小丛书 祖逖北伐》何兹全著 2019
- 《国际经典影像诊断学丛书 消化影像诊断学 原著第3版》王振常,蒋涛,李宏军,杨正汉译;(美)迈克尔·P.费德勒 2019
- 《本草古籍辑注丛书 第1辑 《食疗本草》辑校》(唐)孟诜撰;(唐)张鼎增补;尚志钧辑校 2019
- 《仪器分析技术 第2版》曹国庆 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《高等教育双机械基础课程系列教材 高等学校教材 机械设计课程设计手册 第5版》吴宗泽,罗圣国,高志,李威 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017
- 《新工业时代 世界级工业家张毓强和他的“新石头记”》秦朔 2019
- 《智能制造高技能人才培养规划丛书 ABB工业机器人虚拟仿真教程》(中国)工控帮教研组 2019
- 《AutoCAD机械设计实例精解 2019中文版》北京兆迪科技有限公司编著 2019