《Hadoop Hacks 中文版》PDF下载

购买积分：13 如何计算积分？
作　　者：（日）中野猛著
出版社：北京：中国电力出版社
出版年份：2014
ISBN：9787512346352
页数：374 页

图书介绍：本书以理解了Hadoop基础知识的读者为对象，总结了实际环境下熟练操作Hadoop的技术和技巧。这些技巧涵盖了广泛的内容，包括从系统构建∕运用、应用程序开发等熟练使用Hadoop特性的方法，到关于HBase、Hive、Pig、Mahout、ZooKeeper等子项目的技巧。

点击购买此书全本PDF电子书

前言 1

第1章系统架构/运用技巧 5

运行HDFS环境的参数 6

运行MapReduce环境需要的参数 7

总结 8

文件描述符的设置 9

Java的安装 10

总结 11

本技巧中介绍的HA的构成 11

HA集群的构建过程 13

疑难解答 31

总结 33

可以获取的统计信息 34

总结 40

关于CDH3同一版本间的更新 41

总结 42

准备 43

理解操作 43

使用Oracle的操作确认 45

总结 52

Sqoop的PostgreSQL联合功能 53

在PostgreSQL中的使用 53

PostgreSQL联合的挑战 55

总结 55

什么是Azkaban 55

Azkaban的安装 56

总结 61

作业的定制 61

总结 66

第2章应用程序开发技巧 67

将Hadoop配置文件拷贝到外部应用程序 67

从应用程序操作MapReduce 68

总结 69

什么是InMapperCombiner 70

InMapperCombiner的实现方法 70

总结 72

自定义Writable类型主要分为两种 73

如何生成一个Writable接口的子类 73

总结 75

自定义Partitioner的实现方法 75

总结 77

什么是DistributedCache 78

DistributedCache的使用 78

总结 79

自定义CombineFileInputFormat的实现 80

自定义CombineFileInputFormat的使用 84

总结 86

获取MRUnit Jar文件 87

Map的测试 87

Reduce的测试 88

测试MapReduce作业 88

总结 89

生成自定义Writable 90

生成GroupingComparatorClass 90

生成PartitionerClass 91

生成SortComparatorClass 91

设置各个Comparator 92

总结 92

数据的内容 93

Map端连接的代码 93

输出结果 94

单独读入文件进行连接 94

总结 95

数据的内容 95

Map的定义 95

Reduce的定义 96

作业的定义 96

输出结果 97

总结 97

定义作业 98

总结 100

InputFormat类 100

OutputFormat类 102

总结 104

Cassandra的hadoop程序包内容 105

Map类 105

Reduce类 106

定义作业 106

总结 107

获取文件系统信息 108

操作HDFS的API 109

总结 111

分析的要点 112

用计数器可以确认的项目 112

处理结束后的确认方法 113

经过一定时间后的确认方法 114

作业历史的管理方法 115

总结 115

Hadoop中可以处理的压缩格式 116

Hadoop中处理lzo压缩的准备 116

在MapReduce程序中处理压缩文件 117

在Hive中处理压缩文件 120

总结 121

第3章 HBase技巧 122

importtsv工具 122

completebulkload工具 123

总结 123

sqoop import 124

自定义PutTransformer 124

总结 125

用于HFileOutputFormat的Mapper 126

作业的设置 126

总结 127

Java API 128

HBase shell 129

总结 129

什么是协处理器 130

Observer 130

Endpoint 132

总结 135

创建自定义Filter 135

配置自定义Filter 137

总结 138

export工具 138

import工具 139

总结 139

复制机制 139

配置 140

数据的确认 141

总结 141

第4章 Hive技巧 142

SQL语句和HiveQL语句的书写方法的不同 143

SELECT句中不存在的列不能排序 147

NULL的处理 147

ROWNUM关联 148

总结 148

标点字符、带圈字符的存在 149

PK的存在 149

加载数据 149

Join时的数据保持方法 150

WHERE句中的比较条件 150

置换处理和UDF 150

key数和Out Of Memory 150

总结 151

处理单位 151

ORDER BY语句和SORT BY语句 151

输出中间连接表 152

MapReduce任务不发生的处理 153

一次连接多个表 153

总结 153

查询高速化的探讨 154

总结 158

Hive的用户定义函数 159

UDF的安装 159

UDAF的实现 161

使用用户定义函数 164

总结 165

什么是SerDe 165

文本数据的情况（使用RegexSerDe） 166

文本数据的情况（使用CSV用的非标准SerDe） 167

结构化/二进制数据的场合（使用JSON用的非标准SerDe） 169

总结 171

使用TRANSFORM句 171

使用UDAF 174

总结 176

使用注释 176

使用模式 177

使用锁定机制 178

总结 181

流程 182

使用方法 182

总结 186

Hive的日志的种类 187

通过Hive会话日志可以确认的内容 187

总结 190

Hive-HDFS-RDBMS的关系 190

向Hive的直接导入 191

文件形式和直接导入的关系 193

列指定·WHERE条件指定 195

指定了Hive的分区key的导入 197

总结 198

Hive→Oracle的差异数据的交换 200

总结 203

第5章 Pig技巧 204

进行LOAD处理要实现的项目 204

进行STORE处理需要实现的项目 206

在一个UDF中实现LOAD和STORE的处理 208

总结 209

数据的保存方法 209

MapReduce作业的评价方法 210

用户单独的处理 210

输出的日志 211

总结 211

Pig的用户定义函数 211

用户定义函数中可以使用的数据类型 212

用户定义函数的实现和使用方法 212

总结 218

Java中的PigLatin嵌入方法 218

执行范例 219

总结 220

DESCRIBE：确认数据结构 221

EXPLAIN：确认MapReduce的执行计划 222

DUMP：显示处理内容 225

总结 226

数学函数 226

字符串操作函数 227

总结 228

第6章 Mahout技巧 229

可以做什么 230