第1章 构建Hadoop集群 1
1.1 选择Hadoop集群硬件 2
1.1.1 选择DataNode硬件 3
1.1.2 低存储密度集群 4
1.1.3 高存储密度集群 5
1.1.4 NameNode和 JobTracker硬件配置 6
1.1.5 网关和其他辅助服务 8
1.1.6 网络配置 8
1.1.7 Hadoop硬件总结 9
1.2 Hadoop发行版 10
1.2.1 Hadoop版本 10
1.2.2 选择Hadoop发行版 11
1.2.3 Cloudera Hadoop发行版 11
1.2.4 Hortonworks Hadoop发行版 12
1.2.5 MapR 12
1.3 为Hadoop集群选择操作系统 13
1.4 小结 14
第2章 安装和配置Hadoop 15
2.1 在Hadoop集群中配置操作系统 15
2.1.1 选择和设置文件系统 15
2.1.2 设置Java开发包 16
2.1.3 其他操作系统设定 17
2.1.4 设置CDH存储库 18
2.2 设置NameNode 18
2.2.1 JournalNode节点、ZooKeeper以及故障转移控制器 22
2.2.2 Hadoop配置文件 23
2.2.3 NameNode高可用方案配置 25
2.2.4 JobTracker配置 31
2.2.5 DataNode配置 36
2.3 小结 47
第3章 配置Hadoop生态系统 48
3.1 托管Hadoop生态项目 48
3.2 Sqoop 49
3.2.1 安装和配置Sqoop 49
3.2.2 Sqoop导入示例 50
3.2.3 Sqoop导出示例 52
3.3 Hive 52
3.3.1 Hive架构 53
3.3.2 安装Hive Metastore 54
3.3.3 安装Hive客户端 56
3.3.4 安装Hive Server 57
3.4 Impala 59
3.4.1 Impala架构 59
3.4.2 安装Impala state store 60
3.4.3 安装Impala server 60
3.5 小结 63
第4章 Hadoop安全 64
4.1 Hadoop安全概述 64
4.2 Hadoop分布式文件系统安全 65
4.3 MapReduce安全 66
4.4 Hadoop服务级别验证 68
4.5 Hadoop和Kerberos 69
4.5.1 Kerberos概述 70
4.5.2 Hadoop中的 Kerberos 71
4.6 小结 76
第5章 监控Hadoop集群 77
5.1 监控策略介绍 77
5.2 Hadoop参数 78
5.2.1 JMX参数 79
5.2.2 使用Nagios监控Hadoop 80
5.2.3 监控Hadoop分布式文件系统 81
5.2.4 NameNode校验 81
5.2.5 JournalNode检查 83
5.2.6 ZooKeeper检查 83
5.3 监控MapReduce 84
5.4 使用Ganglia监控Hadoop 85
5.5 小结 86
第6章 在云端使用Hadoop 87
6.1 Amazon E1astic MapReduce 87
6.1.1 安装EMR命令行接口 88
6.1.2 选择Hadoop版本 89
6.1.3 启动EMR集群 89
6.2 使用Whirr 93
6.3 小结 94
第7章 Hadoop平台安全概述 95
7.1 为什么需要保障Hadoop生态系统的安全 96
7.2 确保Hadoop生态系统安全面临的挑战 96
7.3 关键安全因素 97
7.4 小结 99
第8章 Hadoop安全体系设计 100
8.1 什么是Kerberos 100
8.1.1 Kerberos关键术语 101
8.1.2 Kerberos如何工作 102
8.1.3 Kerberos的优点 103
8.2 不采用Kerberos的Hadoop默认安全模型 103
8.3 Hadoop Kerberos安全模型实现 105
8.3.1 用户层次的访问控制 105
8.3.2 服务层次的访问控制 105
8.3.3 用户和服务认证 106
8.3.4 授权令牌 106
8.3.5 作业令牌 106
8.3.6 数据块访问令牌 107
8.4 小结 108
第9章 配置一个安全Hadoop集群 109
9.1 前提条件 109
9.2 设置Kerberos 110
9.3 配置Hadoop使用Kerberos认证 117
9.3.1 在所有Hadoop节点设置Kerberos客户端 117
9.3.2 配置Hadoop服务标识 118
9.4 Hadoop用户设置 124
9.5 安全Hadoop自动部署 124
9.6 小结 125
第10章 Hadoop生态系统安全保障 126
10.1 为Hadoop 生态系统组件配置Kerberos 127
10.1.1 Hive安全设置 127
10.1.2 Oozie安全设置 130
10.1.3 Flume安全设置 131
10.1.4 HBase安全设置 134
10.1.5 Sqoop安全设置 137
10.1.6 Pig安全设置 138
10.2 Hadoop生态系统组件安全保障最佳实践 138
10.3 小结 139
第11章 集成Hadoop与企业安全系统 140
11.1 集成EIM系统 141
1 1.1.1 配置EIM与Hadoop集成 142
1 1.1.2 集成基于Active Directory的EIM系统与Hadoop生态系统 143
11.2 从企业网络访问安全Hadoop集群 144
11.2.1 HttpFS 145
11.2.2 HUE 145
11.2.3 Knox Gateway Server 146
11.3 小结 147
第12章 Hadoop中敏感数据安全保护 148
12.1 Hadoop 中敏感数据及保护方法 148
12.2 小结 154
第13章 安全事件与审计日志 155
13.1 Hadoop集群安全事故和事件监控 155
13.2 Hadoop集群审计日志设置 158
13.3 小结 160
附录 Hadoop安全机制解决方案 161