前言 1
第1章 关键技术 7
1.1 Hadoop分布式文件系统(HDFS) 8
1.2 MapReduce 11
1.3 YARN 13
1.4 Spark 15
第2章 数据库及数据管理 17
2.1 Cassandra 19
2.2 HBase 21
2.3 Accumulo 24
2.4 Memcached 26
2.5 Blur 28
2.6 Solr 30
2.7 MongoDB 32
2.8 Hive 34
2.9 Spark SQL(前身是Shark) 36
2.10 Giraph 38
第3章 序列化 41
3.1 Avro 43
3.2 JSON 46
3.3 Protocol Buffers(protobuf) 48
3.4 Parquet 50
第4章 管理与监控 53
4.1 Ambari 54
4.2 HCatalog 56
4.3 Nagios 58
4.4 Puppet 59
4.5 Chef 61
4.6 ZooKeeper 63
4.7 Oozie 66
4.8 Ganglia 68
第5章 分析辅助 69
5.1 MapReduce接口 69
5.2 分析库 70
5.3 Pig 72
5.4 Hadoop Streaming 74
5.5 Mahout 76
5.6 MLLib 78
5.7 Hadoop图像处理接口(HIPI) 80
5.8 SpatialHadoop 81
第6章 数据传输 83
6.1 Sqoop 85
6.2 Flume 87
6.3 DistCp 89
6.4 Storm 90
第7章 安全、访问控制和审计 93
7.1 Sentry 95
7.2 Kerberos 97
7.3 Knox 99
第8章 云计算和虚拟化 101
8.1 Serengeti 103
8.2 Docker 105
8.3 Whirr 107