大数据开发工程师系列 Hadoop&Spark大数据开发实战PDF电子书下载
- 电子书积分:11 积分如何计算积分?
- 作 者:肖睿,雷刚跃,宋丽萍,张宇,彭英著
- 出 版 社:北京:中国水利水电出版社
- 出版年份:2017
- ISBN:9787517056430
- 页数:298 页
第1章 初识Hadoop 1
本章任务 2
任务1 大数据概述 2
1.1.1 大数据基本概念 2
1.1.2 大数据对于企业带来的挑战 3
任务2 Hadoop概述 4
1.2.1 Hadoop简介 4
1.2.2 Hadoop生态系统 7
1.2.3 大数据应用案例 9
任务3 Hadoop环境搭建 10
1.3.1 虚拟机安装 11
1.3.2 Linux系统安装 14
1.3.3 Hadoop伪分布式环境搭建 31
本章总结 34
本章作业 35
第2章 分布式文件系统HDFS 37
本章任务 38
任务1 初识HDFS 38
2.1.1 HDFS概述 38
2.1.2 HDFS基本概念 41
2.1.3 HDFS体系结构 42
任务2 HDFS操作 44
2.2.1 HDFS shell访问 44
2.2.2 Java API访问 47
任务3 HDFS运行机制 50
2.3.1 HDFS文件读写流程 51
2.3.2 HDFS副本机制 52
2.3.3 数据负载均衡 53
2.3.4 机架感知 54
任务4 HDFS进阶 55
2.4.1 Hadoop序列化 55
2.4.2 基于文件的数据结构SequenceFile 60
2.4.3 基于文件的数据结构MapFile 65
本章总结 67
本章作业 68
第3章 分布式计算框架MapReduce 69
本章任务 70
任务1 MapReduce编程模型 70
3.1.1 MapReduce概述 70
3.1.2 MapReduce编程模型 71
3.1.3 MapReduce WordCount编程实例 72
任务2 MapReduce进阶 77
3.2.1 MapReduce类型 77
3.2.2 MapReduce输入格式 78
3.2.3 MapReduce输出格式 80
3.2.4 Combiner 81
3.2.5 Partitioner 84
3.2.6 RecordReader 87
任务3 MapReduce高级编程 94
3.3.1 Join的MapReduce实现 94
3.3.2 排序的MapReduce实现 101
3.3.3 二次排序的MapReduce实现 103
3.3.4 合并小文件的MapReduce实现 109
本章总结 113
本章作业 114
第4章 YARN与Hadoop新特性 115
本章任务 116
任务1 初识资源调度框架YARN 116
4.1.1 YARN产生背景 116
4.1.2 初识YARN 117
4.1.3 YARN运行机制 119
任务2 HDFS新特性 121
4.2.1 HDFS NameNode HA 122
4.2.2 HDFS NameNode Federation 129
4.2.3 HDFS Snapshots 131
4.2.4 WebHDFS RESTAPI 134
4.2.5 DistCp 135
任务3 YARN新特性 135
4.3.1 ResourceManager Restart 135
4.3.2 ResourceManager HA 136
本章总结 139
本章作业 139
第5章 大数据数据仓库Hive 141
本章任务 142
任务1 初识Hive 142
5.1.1 Hive简介 142
5.1.2 Hive架构 143
5.1.3 Hive与Hadoop的关系 144
5.1.4 Hive与传统关系型数据库对比 144
5.1.5 Hive数据存储 145
5.1.6 Hive环境部署 145
任务2 Hive基本操作 146
5.2.1 DDL操作 147
5.2.2 DML操作 150
5.2.3 Hive shell操作 154
任务3 Hive进阶 155
5.3.1 Hive函数 155
5.3.2 Hive常用调优策略 158
本章总结 163
本章作业 164
第6章 离线处理辅助系统 165
本章任务 166
任务1 使用Sqoop完成数据迁移 166
6.1.1 Sqoop简介 166
6.1.2 导入MySQL数据到HDFS 171
6.1.3 导出HDFS数据到MySQL 177
6.1.4 导入MySQL数据到Hive 179
6.1.5 Sqoop中Job的使用 180
任务2 工作流调度框架Azkaban 180
6.2.1 Azkaban简介 181
6.2.2 Azkaban部署 182
6.2.3 Azkaban实战 186
本章总结 189
本章作业 189
第7章 Spark入门 191
本章任务 192
任务1 初识Spark 192
7.1.1 Spark概述 192
7.1.2 Spark优点 193
7.1.3 Spark生态系统BDAS 195
任务2 Scala入门 198
7.2.1 Scala介绍 199
7.2.2 Scala函数 202
7.2.3 Scala面向对象 203
7.2.4 Scala集合 206
7.2.5 Scala进阶 209
任务3 获取Spark源码并进行编译 211
7.3.1 获取Spark源码 211
7.3.2 Spark源码编译 212
任务4 第一次与Spark亲密接触 214
7.4.1 Spark环境部署 214
7.4.2 Spark完成词频统计分析 215
本章总结 216
本章作业 217
第8章 Spark Core 219
本章任务 220
任务1 Spark的基石RDD 220
8.1.1 RDD概述 220
8.1.2 RDD常用创建方式 221
8.1.3 RDD的转换 223
8.1.4 RDD的动作 225
8.1.5 RDD的依赖 227
任务2 RDD进阶 230
8.2.1 RDD缓存 230
8.2.2 共享变量(Shared Variables) 233
8.2.3 Spark核心概念 235
8.2.4 Spark运行架构 236
任务3 基于RDD的Spark编程 237
8.3.1 开发前置准备 237
8.3.2 使用Spark Core开发词频计数WordCount 238
8.3.3 使用Spark Core进行年龄统计 242
本章总结 243
本章作业 243
第9章 Spark SQL 245
本章任务 246
任务1 Spark SQL前世今生 246
9.1.1 为什么需要SQL 246
9.1.2 常用的SQL on Hadoop框架 247
9.1.3 Spark SQL概述 248
任务2 Spark SQL编程 250
9.2.1 Spark SQL编程入口 250
9.2.2 DataFrame是什么 251
9.2.3 DataFrame编程 252
任务3 Spark SQL进阶 259
9.3.1 Spark SQL外部数据源操作 259
9.3.2 Spark SQL函数的使用 263
9.3.3 Spark SQL常用调优 266
本章总结 269
本章作业 269
第10章 Spark Streaming 271
本章任务 272
任务1 初始流处理框架及Spark Streaming 272
10.1.1 流处理框架概述 272
10.1.2 Spark Streaming概述 274
任务2 Spark Streaming编程 277
10.2.1 Spark Streaming核心概念 278
10.2.2 使用Spark Streaming编程 282
任务3 Spark Streaming进阶 286
10.3.1 Spark Streaming整合Flume 287
10.3.2 Spark Streaming整合Kafka 290
10.3.3 Spark Streaming常用优化策略 294
本章总结 297
本章作业 297
- 《市政工程基础》杨岚编著 2009
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《工程静力学》王科盛主编 2019
- 《中央财政支持提升专业服务产业发展能力项目水利工程专业课程建设成果 设施农业工程技术》赵英编 2018
- 《Maya 2018完全实战技术手册》来阳编著 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《区块链DAPP开发入门、代码实现、场景应用》李万胜著 2019
- 《化学反应工程》许志美主编 2019
- 《Python3从入门到实战》董洪伟 2019
- 《绿色过程工程与清洁生产技术 张懿院士论文集精选 上》《绿色过程工程与清洁生产技术》编写组编 2019
- 《中国当代乡土小说文库 本乡本土》(中国)刘玉堂 2019
- 《异质性条件下技术创新最优市场结构研究 以中国高技术产业为例》千慧雄 2019
- 《中国铁路人 第三届现实主义网络文学征文大赛一等奖》恒传录著 2019
- 《莼江曲谱 2 中国昆曲博物馆藏稀见昆剧手抄曲谱汇编之一》郭腊梅主编;孙伊婷副主编;孙文明,孙伊婷编委;中国昆曲博物馆编 2018
- 《中国制造业绿色供应链发展研究报告》中国电子信息产业发展研究院 2019
- 《中央财政支持提升专业服务产业发展能力项目水利工程专业课程建设成果 设施农业工程技术》赵英编 2018
- 《中国陈设艺术史》赵囡囡著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《《走近科学》精选丛书 中国UFO悬案调查》郭之文 2019
- 《清至民国中国西北戏剧经典唱段汇辑 第8卷》孔令纪 2018