第1章 大数据概述 1
1.1 大数据概念及价值 1
1.2 大数据数据源 4
1.3 大数据技术应用场景 5
1.4 大数据处理流程及技术 7
1.5 大数据与云计算的关系 9
1.6 大数据与人工智能的关系 10
本章小结 11
习题一 11
第2章 Hadoop介绍 12
2.1 Hadoop简介 12
2.1.1 Hadoop由来 12
2.1.2 Hadoop发展历程 12
2.1.3 Hadoop生态系统 14
2.2 Hadoop的体系架构 17
2.2.1 分布式文件系统HDFS 17
2.2.2 分布式计算框架MapReduce 18
2.2.3 分布式资源调度系统YARN 18
2.3 Hadoop依赖的技术基础 19
2.3.1 Java编程基础 19
2.3.2 Web可视化技术基础 27
2.3.3 关系数据库基础 30
2.3.4 Linux基础 31
2.4 Hadoop2.0集群搭建 69
2.4.1 伪分布式安装部署 69
2.4.2 全分布式安装部署 74
本章小结 80
习题二 80
第3章 分布式文件系统HDFS 81
3.1 HDFS简介 81
3.2 HDFS的设计目标 81
3.3 HDFS的体系架构 82
3.3.1 主从架构 83
3.3.2 HDFS高可用性架构 84
3.4 HDFS的核心设计 87
3.4.1 数据复制 87
3.4.2 健壮性设计 90
3.4.3 数据组织 91
3.4.4 存储空间回收机制 91
3.4.5 可访问性 92
3.5 HDFS中数据流的读写 93
3.5.1 RPC实现流程 93
3.5.2 文件的读取 94
3.5.3 文件的写入 95
3.5.4 一致性模型 97
3.6 HDFS的联邦机制 98
本章小结 99
习题三 100
第4章 访问HDFS的常用接口 101
4.1 HDFS常用命令接口 101
4.2 HDFS编程环境准备 105
4.2.1 IDEA的安装配置及特性 105
4.2.2 Maven的安装配置 114
4.3 Java接口 119
4.3.1 在本地Windows机器上配置Hadoop环境变量 121
4.3.2 编写Java客户端程序 122
本章小结 130
习题四 130
第5章 分布式计算框架MapReduce 131
5.1 MapReduce编程模型简介 131
5.1.1 产生背景 131
5.1.2 MapReduce编程模型 133
5.1.3 MapReduce工作流程 134
5.1.4 MapReduce两个版本比较 139
5.2 MapReduce入门编程 140
5.2.1 认识Map和Reduce 140
5.2.2 MapTask阶段 140
5.2.3 ReduceTask阶段 145
本章小结 147
习题五 148
第6章 MapReduce基础编程 149
6.1 MapReduce编程设计 149
6.1.1 MapReduce分布式计算模型 149
6.1.2 MapReduce分布式编程框架 150
6.2 MapReduce编程实例wordcount 151
6.2.1 wordcount开发需求分析 151
6.2.2 编程环境准备 152
6.2.3 编写Mapper类 152
6.2.4 编写Reducer类 154
6.2.5 MapReduce程序在YARN集群的运行机制 155
6.2.6 编写YARN的客户端 156
6.2.7 YARN集群的配置、作业打包和启动 161
本章小结 163
习题六 163
第7章 分布式资源管理系统YARN 165
7.1 YARN简介 165
7.2 发展史 165
7.2.1 Hadoop1.0 165
7.2.2 Hadoop2.0和Hadoop1.0的区别 166
7.2.3 MapReduce计算框架的演变 166
7.3 YARN的架构 167
7.4 YARN集群执行应用程序的工作流程 169
7.5 Hadoop如何使用YARN运行一个Job 170
7.6 YARN的调度策略 173
7.7 YARN的重要概念总结 176
本章小结 176
习题七 177
第8章 MapReduce高级编程 178
8.1 Combiner 178
8.2 Partitioner 179
8.3 计数器 180
8.4 排序 188
8.5 Join连接 197
8.6 倒排索引 205
8.7 求平均值和数据去重 210
本章小结 215
习题八 216
第9章 分布式锁服务ZooKeeper 217
9.1 ZooKeeper基本概念介绍 217
9.1.1 ZooKeeper的定义 217
9.1.2 ZooKeeper的基本原理和应用场景 217
9.1.3 ZooKeeper的选举机制 218
9.1.4 ZooKeeper的存储机制 220
9.2 ZooKeeper集群部署 220
9.3 ZooKeeper编程实例 222
9.3.1 ZooKeeper API基础知识 222
9.3.2 ZooKeeper API介绍及编程实例 222
本章小结 229
习题九 229
第10章 Hadoop高可用集群搭建 230
10.1 HDFS高可用的工作机制 230
10.2 集群规划 231
10.3 Hadoop HA集群搭建 232
10.3.1 前期准备 232
10.3.2 安装ZooKeeper集群 233
10.3.3 安装Hadoop集群 234
10.3.4 启动集群 242
10.3.5 测试 245
本章小结 247
习题十 247
参考文献 248
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《物联网导论》张翼英主编 2020
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《材料导论》张会主编 2019
- 《化工传递过程导论 第2版》阎建民,刘辉 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《穿越数据的迷宫 数据管理执行指南》Laura Sebastian-Coleman 2020