前言 1
第1章 亚马逊弹性MapReduce介绍 9
1.1 本书中使用的亚马逊Web服务 10
1.2 亚马逊弹性MapReduce 12
1.3 亚马逊EMR及Hadoop生态系统 14
1.4 亚马逊弹性MapReduce安装与传统的Hadoop安装 15
1.5 应用程序构建块 17
第2章 AWS的数据采集及数据分析 20
2.1 日志分析应用 21
2.2 日志消息数据集分析 21
2.3 理解MapReduce 22
2.4 收集阶段 24
2.5 模拟系统日志数据 25
2.6 开发一个MapReduce应用程序 32
2.7 自定义JAR MapReduce工作 32
2.8 运行一个亚马逊EMR集群 36
2.9 查看结果 38
2.10 调试Job Flow 38
2.11 应用程序的实际使用 47
第3章 数据过滤设计模型及调度工作 48
3.1 扩展应用程序示例 49
3.2 理解Web服务器日志 49
3.3 使用数据过滤发现Web日志中的错误 52
3.4 在数据集中构建汇总统计 58
3.5 Job Flow调度 62
3.6 AWS数据管道调度 65
3.7 实际使用 75
第4章 亚马逊EMR上使用Hive和Pig进行数据分析 77
4.1 亚马逊Job Flow技术 78
4.2 Pig是什么? 79
4.3 在亚马逊EMR上使用Pig 79
4.4 Hive是什么? 90
4.5 在亚马逊EMR上使用Hive 91
4.6 我们应用程序中的Hive和Pig 98
第5章 使用EMR进行机器学习 99
5.1 机器学习快速导览 99
5.2 Python和EMR 101
5.3 接下来干什么呢? 110
第6章 规划AWS项目并管理开销 111
6.1 开发项目开销模型 111
6.2 优化AWS资源来减少项目开销 117
6.3 亚马逊为预估项目开销提供的工具 127
附录A 亚马逊Web服务资源和工具 129
附录B 云计算、亚马逊Web服务及其影响 133
附录C 安装和设置 141