当前位置：首页 > 工业技术

大数据技术丛书 Spark与Hadoop大数据分析PDF电子书下载

工业技术

电子书积分：10 积分如何计算积分？
作者：（美）文卡特·安卡姆著；吴今朝译
出版社：北京：机械工业出版社
出版年份：2017
ISBN：9787111569414
页数：234 页

图书介绍：

查看图书目录点击购买PDF全本电子书

上一篇：二级注册计量师基础知识及专业实务第4版 2017版下一篇：新疆少数民族工艺美术研究新疆传统建筑砖饰艺术

《大数据技术丛书 Spark与Hadoop大数据分析》目录

标签：数据数据分析丛书分析技术

第1章从宏观视角看大数据分析 1

1.1大数据分析以及Hadoop和Spark在其中承担的角色 3

1.1.1典型大数据分析项目的生命周期 4

1.1.2 Hadoop和Spark承担的角色 6

1.2大数据科学以及Hadoop和Spark在其中承担的角色 6

1.2.1从数据分析到数据科学的根本性转变 6

1.2.2典型数据科学项目的生命周期 8

1.2.3 Hadoop和Spark承担的角色 9

1.3工具和技术 9

1.4实际环境中的用例 11

1.5小结 12

第2章Apache Hadoop和Apache Spark入门 13

2.1 Apache Hadoop概述 13

2.1.1 Hadoop分布式文件系统 14

2.1.2 HDFS的特性 15

2.1.3 MapReduce 16

2.1.4 MapReduce的特性 17

2.1.5 MapReduce v1与MapReduce v2对比 17

2.1.6 YARN 18

2.1.7 Hadoop上的存储选择 20

2.2 Apache Spark概述 24

2.2.1 Spark的发展历史 24

2.2.2 Apache Spark是什么 25

2.2.3 Apache Spark不是什么 26

2.2.4 MapReduce的问题 27

2.2.5 Spark的架构 28

2.3为何把Hadoop和Spark结合使用 31

2.3.1 Hadoop的特性 31

2.3.2 Spark的特性 31

2.4安装Hadoop和Spark集群 33

2.5小结 36

第3章深入剖析Apache Spark 37

3.1启动Spark守护进程 37

3.1.1使用CDH 38

3.1.2使用HDP、 MapR和Spark预制软件包 38

3.2学习Spark的核心概念 39

3.2.1使用Spark的方法 39

3.2.2弹性分布式数据集 41

3.2.3 Spark环境 43

3.2.4变换和动作 44

3.2.5 RDD中的并行度 46

3.2.6延迟评估 49

3.2.7谱系图 50

3.2.8序列化 51

3.2.9在Spark中利用Hadoop文件格式 52

3.2.10数据的本地性 53

3.2.11共享变量 54

3.2.12键值对RDD 55

3.3 Spark程序的生命周期 55

3.3.1流水线 57

3.3.2 Spark执行的摘要 58

3.4 Spark应用程序 59

3.4.1 Spark Shell和Spark应用程序 59

3.4.2创建Spark环境 59

3.4.3 SparkConf 59

3.4.4 SparkSubmit 60

3.4.5 Spark配置项的优先顺序 61

3.4.6重要的应用程序配置 61

3.5持久化与缓存 62

3.5.1存储级别 62

3.5.2应该选择哪个存储级别 63

3.6 Spark资源管理器：Standalone、YARN和Mesos 63

3.6.1本地和集群模式 63

3.6.2集群资源管理器 64

3.7小结 67

第4章利用Spark SQL、 Data-Frame和Dataset进行大数据分析 69

4.1 Spark SQL的发展史 70

4.2 Spark SQL的架构 71

4.3介绍Spark SQL的四个组件 72

4.4 DataFrame和Dataset的演变 74

4.4.1 RDD有什么问题 74

4.4.2 RDD变换与Dataset和DataFrame变换 75

4.5为什么要使用Dataset和DataFrame 75

4.5.1优化 76

4.5.2速度 76

4.5.3自动模式发现 77

4.5.4多数据源，多种编程语言 77

4.5.5 RDD和其他API之间的互操作性 77

4.5.6仅选择和读取必要的数据 78

4.6何时使用RDD、Dataset和DataFrame 78

4.7利用DataFrame进行分析 78

4.7.1创建SparkSession 79

4.7.2创建DataFrame 79

4.7.3把DataFrame转换为RDD 82

4.7.4常用的Dataset／DataFrame操作 83

4.7.5缓存数据 84

4.7.6性能优化 84

4.8利用Dataset API进行分析 85

4.8.1创建Dataset 85

4.8.2把DataFrame转换为Dataset 86

4.8.3利用数据字典访问元数据 87

4.9 Data Sources API 87

4.9.1读和写函数 88

4.9.2内置数据源 88

4.9.3外部数据源 93

4.10把Spark SQL作为分布式SQL引擎 97

4.10.1把Spark SQL的Thrift服务器用于JDBC／ODBC访问 97

4.10.2使用beeline客户端查询数据 98

4.10.3使用spark-sql CLI从Hive查询数据 99

4.10.4与BI工具集成 100

4.11 Hive on Spark 100

4.12小结 100

第5章利用Spark Streaming和Structured Streaming进行实时分析 102

5.1实时处理概述 103

5.1.1 Spark Streaming的优缺点 104

5.1.2 Spark Streaming的发展史 104

5.2 Spark Streaming的架构 104

5.2.1 Spark Streaming应用程序流 106

5.2.2无状态和有状态的流处理 107

5.3 Spark Streaming的变换和动作 109

5.3.1 union 109

5.3.2 join 109

5.3.3 transform操作 109

5.3.4 updateStateByKey 109

5.3.5 mapWithState 110

5.3.6窗口操作 110

5.3.7输出操作 111

5.4输入数据源和输出存储 111

5.4.1基本数据源 112

5.4.2高级数据源 112

5.4.3自定义数据源 112

5.4.4接收器的可靠性 112

5.4.5输出存储 113

5.5使用Kafka和HBase的Spark Streaming 113

5.5.1基于接收器的方法 114

5.5.2直接方法（无接收器） 116

5.5.3与HBase集成 117

5.6 Spark Streaming的高级概念 118

5.6.1使用DataFrame 118

5.6.2 MLlib操作 119

5.6.3缓存／持久化 119

5.6.4 Spark Streaming中的容错机制 119

5.6.5 Spark Streaming应用程序的性能调优 121

5.7监控应用程序 122

5.8结构化流概述 123

5.8.1结构化流应用程序的工作流 123

5.8.2流式Dataset和流式DataFrame 125

5.8.3流式Dataset和流式DataFrame的操作 126

5.9小结 129

第6章利用Spark和Hadoop的笔记本与数据流 130

6.1基于网络的笔记本概述 130

6.2 Jupyter概述 131

6.2.1安装Jupyter 132

6.2.2用Jupyter进行分析 134

6.3 Apache Zeppelin概述 135

6.3.1 Jupyter和Zeppelin对比 136

6.3.2安装Apache Zeppelin 137

6.3.3使用Zeppelin进行分析 139

6.4 Livy REST作业服务器和Hue笔记本 140

6.4.1安装设置Livy服务器和Hue 141

6.4.2使用Livy服务器 142

6.4.3 Livy和Hue笔记本搭配使用 145

6.4.4 Livy和Zeppelin搭配使用 148

6.5用于数据流的Apache NiFi概述 148

6.5.1安装Apache NiFi 148

6.5.2把NiFi用于数据流和分析 149

6.6小结 152

第7章利用Spark和Hadoop进行机器学习 153

7.1机器学习概述 153

7.2在Spark和Hadoop上进行机器学习 154

7.3机器学习算法 155

7.3.1有监督学习 156

7.3.2无监督学习 156

7.3.3推荐系统 157

7.3.4特征提取和变换 157

7.3.5优化 158

7.3.6 Spark MLlib的数据类型 158

7.4机器学习算法示例 160

7.5构建机器学习流水线 163

7.5.1流水线工作流的一个示例 163

7.5.2构建一个ML流水线 164

7.5.3保存和加载模型 166

7.6利用H2O和Spark进行机器学习 167

7.6.1为什么使用Sparkling Water 167

7.6.2 YARN上的一个应用程序流 167

7.6.3 Sparkling Water入门 168

7.7 Hivemall概述 169

7.8 Hivemall for Spark概述 170

7.9小结 170

第8章利用Spark和Mahout构建推荐系统 171

8.1构建推荐系统 171

8.1.1基于内容的过滤 172

8.1.2协同过滤 172

8.2推荐系统的局限性 173

8.3用MLlib实现推荐系统 173

8.3.1准备环境 174

8.3.2创建RDD 175

8.3.3利用DataFrame探索数据 176

8.3.4创建训练和测试数据集 178

8.3.5创建一个模型 178

8.3.6做出预测 179

8.3.7利用测试数据对模型进行评估 179

8.3.8检查模型的准确度 180

8.3.9显式和隐式反馈 181

8.4 Mahout和Spark的集成 181

8.4.1安装Mahout 181

8.4.2探索Mahout shell 182

8.4.3利用Mahout和搜索工具构建一个通用的推荐系统 186

8.5小结 189

第9章利用GraphX进行图分析 190

9.1图处理概述 190

9.1.1图是什么 191

9.1.2图数据库和图处理系统 191

9.1.3 GraphX概述 192

9.1.4图算法 192

9.2 GraphX入门 193

9.2.1 GraphX的基本操作 193

9.2.2图的变换 198

9.2.3 GraphX算法 202

9.3利用GraphX分析航班数据 205

9.4 GraphFrames概述 209

9.4.1模式发现 211

9.4.2加载和保存GraphFrames 212

9.5小结 212

第10章利用SparkR进行交互式分析 213

10.1 R语言和SparkR概述 213

10.1.1 R语言是什么 214

10.1.2 SparkR概述 214

10.1.3 SparkR架构 216

10.2 SparkR入门 216

10.2.1安装和配置R 216

10.2.2使用SparkR shell 218

10.2.3使用SparkR脚本 222

10.3在SparkR里使用DataFrame 223

10.4在RStudio里使用SparkR 228

10.5利用SparkR进行机器学习 230

10.5.1利用朴素贝叶斯模型 230

10.5.2利用K均值模型 232

10.6在Zeppelin里使用SparkR 233

10.7小结 234

相关图书

作者其它书籍

出版社其它书籍

本类热门