《数据馆员的HADOOP简明手册》PDF下载

  • 购买积分:7 如何计算积分?
  • 作  者:顾立平,袁慧编著
  • 出 版 社:北京:科学技术文献出版社
  • 出版年份:2017
  • ISBN:9787518930135
  • 页数:82 页
图书介绍:Hadoop是一个开源的框架,它能够使用户在不了解分布式底层细节的情况下,开发分布式程序,以便进行大规模数据集的分布式处理、用于计算机集群进行高速运算,以及面向海量数据的存储。本书旨在协助初级数据馆员们能够迅速了解Hadoop的知识、用途以及整体概貌,作为进一步实践操作层面之前的入门基础读物。

第1章 Hadoop概念 1

1.1 Hadoop简介 1

1.1.1 Hadoop是什么 1

1.1.2 Hadoop形成的历史 1

1.1.3 Hadoop在云计算和大数据中的地位 2

1.1.4 Hadoop与Google FS的关系 3

1.1.5 小结 4

1.2 Hadoop生态系统 4

1.2.1 Hadoop组成 4

1.2.2 HDFS 10

1.2.3 MapReduce 11

1.3 Hadoop不同版本的变化 12

1.3.1 Hadoop版本的变化 12

1.3.2 HDFS→HDFS2 13

1.3.3 MapReduce 1.0→MapReduce 2.0 15

第2章 Hadoop的YARN、 HBase、 Hive组件 17

2.1 YARN 19

2.1.1 YARN的基本组成结构 19

2.1.2 YARN的工作流程 21

2.2 HBase 22

2.2.1 NoSQL数据库 23

2.2.2 HBase分布式数据库 25

2.3 Hive数据仓库系统 32

2.3.1 Hive的定义 33

2.3.2 Hive和数据库的异同 33

2.3.3 部分查询逻辑实现举例 37

第3章 MapReduce入门 43

3.1 MapReduce初析 43

3.2 MapReduce运行机制 43

3.3 Map函数和Reduce函数 51

3.4 Mapper和Reducer抽象类 52

3.5 MapReduce的最小驱动类 53

3.6 MapReduce的输入与输出 54

3.6.1 MapReduce的输入InputFormat 54

3.6.2 MapReduce的输出OutputFormat 54

3.7 自定义W ritable和WritableComparable 56

3.8 技术详解 58

3.8.1 Combiner详解 58

3.8.2 Partitioner详解 59

3.8.3 Distributed FileSvstem详解 61

3.9 Hadoop工具介绍 63

3.10 Counter计数器和自定义Counter计数器 64

第4章 基于Hadoop二次开发实战 67

4.1 MapReduce的优化 67

4.2 Hadoop小文件优化 71

4.3 任务调度 75

附录Hadoop家族产品 79