第1章 大数据的产生发展 1
1.1 互联网和物联网上的数据 1
1.2 大数据的使用 4
1.3 数据挖掘中的一些概念 10
1.4 数据仓库 17
第2章 Hadoop概述 22
2.1 Hadoop的起源发展 22
2.2 Hadoop核心基础架构 27
2.3 Hadoop上的各组件 32
2.4 Spark和Hadoop 40
第3章 MapReduce的工作机制 44
3.1 剖析MapReduce作业运行机制 44
3.2 程序运行失败分析 49
3.3 shuffle和排序 53
3.4 任务的执行 56
第4章 MapReduce的类型格式与特征 61
4.1 MapReduce的类型 61
4.2 输入输出格式 70
4.3 MapReduce的特性 92
第5章 Hadoop分布式文件系统 118
5.1 HDFS的设计与概念 118
5.2 Hadoop文件系统 125
5.3 数据接口的分析 127
5.4 剖析文件数据流 140
5.5 通过distcp并行复制分析 144
第6章 Hadoop生态系统 147
6.1 Hive简介分析 147
6.2 Hive原理与架构 150
6.3 HBase简介分析 152
6.4 HBase原理与架构 157
第7章 管理Hadoop 174
7.1 HDFS的分析 174
7.2 监控日志 184
7.3 日常管理维护 186
第8章 Hadoop安全 194
8.1 安全的核心 194
8.2 Hadoop中的认证安全 196
8.3 Hadoop中的授权安全 199
8.4 Hadoop中的数据保密性 206
8.5 Hadoop中的日志审计 213
第9章 使用Hadoop进行数据分析 215
9.1 数据分析工作流 215
9.2 机器学习 217
9.3 Apache Mahout 220
9.4 使用Hadoop和Mahout进行文档分析 221
第10章 Hadoop在互联网公司的应用 235
10.1 Hadoop在腾讯的应用 235
10.2 Hadoop在Facebook的应用 239
10.3 金山的Hadoop应用 241
10.4 迅雷公司对Hadoop的应用 245
第11章 Hadoop和行业应用的结合应用 247
11.1 Hadoop和运营商的结合 247
11.2 Hadoop和公用事业的结合 261
11.3 Hadoop和“智慧工商”的结合 269
11.4 Hadoop和金融的结合 274
11.5 Hadoop和医疗的结合 281
11.6 Hadoop和物流的结合 285
11.7 Hadoop和媒体的结合 288
参考文献 293