《Hadoop生态系统》PDF下载

  • 购买积分:8 如何计算积分?
  • 作  者:KevinSitto,MarshallPresser著;陈新,唐晓译
  • 出 版 社:北京:中国电力出版社
  • 出版年份:2016
  • ISBN:9787512395985
  • 页数:109 页
图书介绍:本书每一章都介绍了不同的主题(例如核心技术或数据传输),并且解释了为什么特定组件适用或不适用特定的需求。对于数据处理来说,使用Hadoop是一个全新的挑战,但如果有了这本便利的参考书,你将很容易领会使用Hadoop的精妙所在。主要包括如下主题:核心技术,Hadoop分布式文件系统(HDFS)、MapReduce、YARN和Spark。数据库和数据管理,Cassandra、HBase、MongoDB和Hive。序列化,Avro、JSON和Parquet。管理和监视,Puppet、Chef、Zookeeper和Oozie。分析辅助,Pig、Mahout和MLLib。数据传输,Scoop、Flume、distcp和Storm。安全、访问控制和审计——Sentry、Kerberos和Knox。云计算和虚拟化——Serengeti、Docker和Whirr。

前言 1

第1章 关键技术 7

1.1 Hadoop分布式文件系统(HDFS) 8

1.2 MapReduce 11

1.3 YARN 13

1.4 Spark 15

第2章 数据库及数据管理 17

2.1 Cassandra 19

2.2 HBase 21

2.3 Accumulo 24

2.4 Memcached 26

2.5 Blur 28

2.6 Solr 30

2.7 MongoDB 32

2.8 Hive 34

2.9 Spark SQL(前身是Shark) 36

2.10 Giraph 38

第3章 序列化 41

3.1 Avro 43

3.2 JSON 46

3.3 Protocol Buffers(protobuf) 48

3.4 Parquet 50

第4章 管理与监控 53

4.1 Ambari 54

4.2 HCatalog 56

4.3 Nagios 58

4.4 Puppet 59

4.5 Chef 61

4.6 ZooKeeper 63

4.7 Oozie 66

4.8 Ganglia 68

第5章 分析辅助 69

5.1 MapReduce接口 69

5.2 分析库 70

5.3 Pig 72

5.4 Hadoop Streaming 74

5.5 Mahout 76

5.6 MLLib 78

5.7 Hadoop图像处理接口(HIPI) 80

5.8 SpatialHadoop 81

第6章 数据传输 83

6.1 Sqoop 85

6.2 Flume 87

6.3 DistCp 89

6.4 Storm 90

第7章 安全、访问控制和审计 93

7.1 Sentry 95

7.2 Kerberos 97

7.3 Knox 99

第8章 云计算和虚拟化 101

8.1 Serengeti 103

8.2 Docker 105

8.3 Whirr 107