《Hadoop 2.0-YARN核心技术实践》PDF下载

  • 购买积分:10 如何计算积分?
  • 作  者:周维编著
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2015
  • ISBN:9787302411390
  • 页数:204 页
图书介绍:本书首先介绍YARN起源及其基本框架,对YARN中核心模块,如RPC通讯机制和状态机等进行了深入分析,并对其主要原代码进行对照讲解。在此基础上,从应用的角度出发,详细介绍了YARN上流行的各种计算框架(Tez、Storm、Spark)以及YARN调度模拟器-SLS,每种YARN上 计算框架及调度模拟器-SLS都通过例程的形式进行讲解,这使得读者可以通过实践逐步理解YARN的工作机制。

第1章 YARN的前世今生 1

1.1 Hadoop基本情况回顾 1

1.2 为什么我们需要YARN 2

1.3 YARN和Hadoop 1.0对比分析 3

1.3.1 体系结构对比 3

1.3.2 运算框架对比 5

1.4 Hadoop生态系统 6

1.5 小结 6

第2章 YARN基本框架 8

2.1 YARN基本框架 8

2.2 ResourceManager 9

2.3 NodeManager 10

2.4 ApplicationMaster 11

2.5 YARN中应用程序的运行过程 12

第3章 YARN编程初步 13

3.1 YARN安装与配置 13

3.1.1 环境准备 13

3.1.2 伪分布式安装 14

3.1.3 完全分布式安装 18

3.2 源码阅读及编译 22

3.2.1 Maven的介绍及安装 22

3.2.2 编译前准备 23

3.2.3 YARN源码阅读环境配置 24

3.2.4 YARN源码编译 27

3.3 MapReduce实例 28

3.3.1 Word Count 28

3.3.2 Deduplication 32

3.3.3 Sort 36

3.4 HBase编程初步 38

3.4.1 HBase介绍 38

3.4.2 HBase安装与配置 39

3.4.3 HBase开发环境配置及实例 43

第4章 YARN核心组件分析 47

4.1 通信组件Protocol Buffer 47

4.1.1 什么是Protocol Buffer 47

4.1.2 YARN中的Protocol Buffer 47

4.1.3 如何编写Protocol Buffer 47

4.1.4 Protocol Buffer代码分析 49

4.2 Hadoop 1.0 RPC和YARN RPC 50

4.2.1 什么是RPC 50

4.2.2 RPC通信模型 50

4.2.3 Hadoop 1.0 RPC的实现过程 51

4.2.4 Hadoop 1.0 RPC的应用 51

4.2.5 YARN RPC 52

4.2.6 YARN RPC通信案例解析 53

4.2.7 YARN RPC源代码导读 59

4.3 YARN状态机分析 61

4.3.1 RMApp状态机 61

4.3.2 RMAppAttempt状态机 65

4.3.3 RMNode状态机 69

4.3.4 RMContainer状态机 71

4.3.5 应用程序在RM中的完整运行流程分析 72

4.3.6 状态机源代码导读 75

4.3.7 YARN状态机监控软件设计 76

4.4 HDFS Federation 84

4.4.1 HDFS的层次 84

4.4.2 当前的HDFS架构 84

4.4.3 HDFS Federation 85

4.4.4 Federation HDFS与当前HDFS的比较 86

第5章 YARN中几种计算模型 87

5.1 基于YARN的MapReduce进阶 87

5.1.1 Reduce Side Join 87

5.1.2 Map Side Join 91

5.1.3 并行聚类Kmeans算法设计与实现 92

5.2 Storm on YARN 96

5.2.1 Storm基本原理 96

5.2.2 Storm on YARN 98

5.2.3 Storm单机模式安装 98

5.2.4 Storm on YARN安装 102

5.2.5 基于Storm onYARN的实时出租车管理系统 106

5.3 Spark on YARN 112

5.3.1 Spark简介 112

5.3.2 Spark基本原理 114

5.3.3 Spark的部署及开发环境搭建 118

5.3.4 Spark MLlib介绍 126

5.3.5 Spark的优化配置 127

5.3.6 Spark的编程案例 129

5.3.7 Spark的应用案例 132

第6章 YARN资源调度器 136

6.1 Hadoop资源调度器回顾 136

6.2 YARN资源调度器 138

6.2.1 Capacity Scheduler 138

6.2.2 Fair Scheduler 141

6.2.3 调度器比较 146

6.3 YARN调度负载模拟器-SLS 146

6.3.1 综述 146

6.3.2 参数和命令 148

6.3.3 实例一 快速开始 150

6.3.4 实例二 定制运行 151

6.4 Google第三代调度器分析 158

6.4.1 中央式调度器模式 158

6.4.2 双层调度器模式 160

6.4.3 共享状态调度器 164

6.4.4 Google第三代调度器Omega 166

6.4.5 Omega集群调度模拟器-CSS 169

第7章 YARN工作流分析 173

7.1 Tez on YARN 173

7.1.1 Tez基本原理 173

7.1.2 Tez环境安装 177

7.1.3 Tez在Hive引擎中的优化作用 191

7.1.4 小结 195

7.2 显式工作流引擎 196

7.2.1 Hadoop工作流引擎 196

7.2.2 某大型互联网公司部门使用的工作流引擎 197

7.2.3 应用举例 200

7.2.4 对比 202

7.2.5 小结 203

参考文献 204