第1章 Hadoop概念 1
1.1 Hadoop简介 1
1.1.1 Hadoop是什么 1
1.1.2 Hadoop形成的历史 1
1.1.3 Hadoop在云计算和大数据中的地位 2
1.1.4 Hadoop与Google FS的关系 3
1.1.5 小结 4
1.2 Hadoop生态系统 4
1.2.1 Hadoop组成 4
1.2.2 HDFS 10
1.2.3 MapReduce 11
1.3 Hadoop不同版本的变化 12
1.3.1 Hadoop版本的变化 12
1.3.2 HDFS→HDFS2 13
1.3.3 MapReduce 1.0→MapReduce 2.0 15
第2章 Hadoop的YARN、 HBase、 Hive组件 17
2.1 YARN 19
2.1.1 YARN的基本组成结构 19
2.1.2 YARN的工作流程 21
2.2 HBase 22
2.2.1 NoSQL数据库 23
2.2.2 HBase分布式数据库 25
2.3 Hive数据仓库系统 32
2.3.1 Hive的定义 33
2.3.2 Hive和数据库的异同 33
2.3.3 部分查询逻辑实现举例 37
第3章 MapReduce入门 43
3.1 MapReduce初析 43
3.2 MapReduce运行机制 43
3.3 Map函数和Reduce函数 51
3.4 Mapper和Reducer抽象类 52
3.5 MapReduce的最小驱动类 53
3.6 MapReduce的输入与输出 54
3.6.1 MapReduce的输入InputFormat 54
3.6.2 MapReduce的输出OutputFormat 54
3.7 自定义W ritable和WritableComparable 56
3.8 技术详解 58
3.8.1 Combiner详解 58
3.8.2 Partitioner详解 59
3.8.3 Distributed FileSvstem详解 61
3.9 Hadoop工具介绍 63
3.10 Counter计数器和自定义Counter计数器 64
第4章 基于Hadoop二次开发实战 67
4.1 MapReduce的优化 67
4.2 Hadoop小文件优化 71
4.3 任务调度 75
附录Hadoop家族产品 79