《写给大忙人的Hadoop 2》PDF下载

  • 购买积分:11 如何计算积分?
  • 作  者:(美)DouglasEadline著;卢涛,李颖译
  • 出 版 社:北京:电子工业出版社
  • 出版年份:2016
  • ISBN:9787121288050
  • 页数:271 页
图书介绍:本书首先介绍了Hadoop的背景知识,包括Hadoop 2和YARN的工作原理和对Hadoop 1的改进,然后将数据湖与传统存储比较。第2章到第8章,分别介绍了Hadoop 2和核心服务的安装方法、Hadoop分布式文件系统、MapReduce和YARN编程,以及利用Apache Pig等Hadoop工具简化编程。最后两章讲述了利用Apache Ambari等工具管理Hadoop和基本的管理程序。附录包括Hadoop 2故障诊断和排除的基础知识、Apache Hue和Apache Spark安装等。本书通俗易懂,具有大量操作实例,易于上手,适合Hadoop用户、管理员、开发和运维人员、程序员、架构师、分析师和数据科学工作者阅读。

1 背景和概念 1

定义Apache Hadoop 1

Apache Hadoop的发展简史 3

大数据的定义 4

Hadoop作为数据湖 5

使用Hadoop:管理员、用户或两种身份兼具 7

原始的MapReduce 7

Apache Hadoop的设计原则 8

Apache Hadoop MapReduce示例 8

MapReduce的优势 10

Apache Hadoop V 1 MapReduce操作 11

使用Hadoop V2超越MapReduce 13

Hadoop V2 YARN操作设计 14

Apache Hadoop项目生态系统 16

总结和补充资料 18

2 安装攻略 21

核心Hadoop服务 21

Hadoop配置文件 22

规划你的资源 23

硬件的选择 23

软件的选择 24

在台式机或笔记本电脑上安装 25

安装Hortonworks HDP 2.2沙箱 25

用Apache源代码安装Hadoop 32

配置单节点YARN服务器的步骤 33

运行简单的MapReduce示例 42

安装Apache Pig(可选) 42

安装Apache Hive(可选) 43

使用Ambari安装Hadoop 44

执行Ambari安装 45

撤消Ambari安装 59

使用Apache Whirr在云中安装Hadoop 59

总结和补充资料 65

3 HDFS基础知识 67

HDFS设计的特点 67

HDFS组件 68

HDFS块复制 71

HDFS安全模式 72

机架的识别 73

NameNode高可用性 73

HDFS NameNode联邦 75

HDFS检查点和备份 76

HDFS快照 76

HDFS NFS网关 76

HDFS用户命令 77

简要HDFS命令参考 77

一般HDFS命令 78

列出HDFS中的文件 79

在HDFS中创建一个目录 80

将文件复制到HDFS 80

从HDFS复制文件 81

在HDFS中复制文件 81

删除在HDFS中的文件 81

删除在HDFS中的目录 81

获取HDFS状态报告 81

HDFS的Web图形用户界面 82

在程序中使用HDFS 82

HDFS Java应用程序示例 82

HDFS C应用程序示例 86

总结和补充资料 88

4 运行示例程序和基准测试程序 91

运行MapReduce示例 91

列出可用的示例 92

运行Pi示例 93

使用Web界面监控示例 95

运行基本Hadoop基准测试程序 101

运行Terasort测试 101

运行TestDFSIO基准 102

管理Hadoop MapReduce作业 104

总结和补充资料 105

5 Hadoop MapReduce框架 107

MapReduce模型 107

MapReduce并行数据流 110

容错和推测执行 114

推测执行 114

Hadoop MapReduce硬件 115

总结和补充资料 115

6 MapReduce编程 117

编译和运行Hadoop WordCount的示例 117

使用流式接口 122

使用管道接口 125

编译和运行Hadoop Grep链示例 127

调试MapReduce 131

作业的列举、清除和状态查询 131

Hadoop日志管理 131

启用YARN日志聚合 132

Web界面日志查看 133

命令行日志查看 133

总结和补充资料 135

7 基本的Hadoop工具 137

使用Apache Pig 137

Pig示例演练 138

使用Apache Hive 140

Hive示例演练 140

更高级的Hive示例 142

使用Apache Sqoop获取关系型数据 145

Apache Sqoop导入和导出方法 145

Apache Sqoop版本更改 147

Sqoop示例演练 148

使用Apache Flume获取数据流 155

Flume的示例演练 157

使用Apache Oozie管理Hadoop工作流 160

Oozie示例演练 162

使用Apache HBase 170

HBase数据模型概述 170

HBase示例演练 171

总结和补充资料 176

8 Hadoop YARN应用程序 179

YARN分布式shell 179

使用YARN分布式shell 180

一个简单的示例 181

使用更多的容器 182

带有shell参数的分布式shell示例 183

YARN应用程序的结构 185

YARN应用程序框架 187

Hadoop MapReduce 188

Apache Tez 188

Apache Giraph 189

Hoya: HBase on YARN 189

Dryad on YARN 189

Apache Spark 189

Apache Storm 190

Apache REEF:可持续计算执行框架 190

Hamster: Hadoop和MPI在同一集群 190

Apache Flink:可扩展的批处理和流式数据处理 191

Apache Slider:动态应用程序管理 191

总结和补充资料 192

9 用Apache Ambari管理Hadoop 193

快速浏览Apache Ambari 194

仪表板视图 194

服务视图 197

主机视图 199

管理视图 201

查看视图 201

Admin下拉菜单 202

更改Hadoop属性 206

总结和补充资料 212

10 基本的Hadoop管理程序 213

基本的Hadoop YARN管理 214

停用YARN节点 214

YARN WebProxy 214

使用JobHistoryServer 215

管理YARN作业 215

设置容器内存 215

设置容器核心 216

设置MapReduce属性 216

基本的HDFS管理 217

NameNode用户界面 217

将用户添加到HDFS 219

在HDFS上执行FSCK 220

平衡HDFS 221

HDFS安全模式 222

停用HDFS节点 222

SecondaryNameNode 223

HDFS快照 223

配置到HDFS的NFSv3网关 225

容量调度程序背景知识 229

Hadoop 2的MapReduce兼容性 231

启用应用主控程序的重新启动功能 231

计算一个节点的承载容量 232

运行Hadoop 1的应用程序 233

总结和补充资料 235

附录A 本书的网页和代码下载 237

附录B 入门流程图和故障排除指南 239

入门流程图 239

常见的Hadoop故障排除指南 239

规则1:不要惊慌 239

规则2:安装并使用Ambari 244

规则3:检查日志 244

规则4:简化情况 245

规则5:在互联网上提问 245

其他有用的提示 246

附录C 按主题列出的Apache Hadoop资源汇总 253

常规的Hadoop信息 253

Hadoop安装攻略 253

HDFS 254

示例 255

MapReduce 255

MapReduce编程 255

基本工具 256

YARN应用程序框架 257

Ambari管理 257

基本的Hadoop管理 257

附录D 安装HueHadoop GUI 259

Hue安装 259

安装和配置Hue 262

启动Hue 263

Hue用户界面 263

附录E 安装Apache Spark 267

在集群上安装Spark 267

在整个集群中启动Spark 268

在伪分布式的单节点安装版本中安装和启动Spark 270

运行Spark示例 271