第1章 安装Spark以及构建Spark集群 1
1.1单机运行Spark 4
1.2在EC2上运行Spark 5
1.3在ElasticMapReduce上部署Spark 11
1.4用Chef(opscode)部署Spark 12
1.5在Mesos上部署Spark 14
1.6在Yam上部署Spark 15
1.7通过SSH部署集群 16
1.8链接和参考 21
1.9小结 21
第2章Spark shell的使用 23
2.1加载一个简单的text文件 24
2.2用Spark shell运行逻辑回归 26
2.3交互式地从S3加载数据 28
2.4小结 30
第3章 构建并运行Spark应用 31
3.1用sbt构建Spark作业 32
3.2用Maven构建Spark作业 36
3.3用其他工具构建Spark作业 39
3.4小结 39
第4章 创建SparkContext 41
4.1 Scala 43
4.2 Java 43
4.3 Java和Scala共享的API 44
4.4 Python 45
4.5链接和参考 45
4.6小结 46
第5章 加载与保存数据 47
5.1 RDD 48
5.2加载数据到RDD中 49
5.3保存数据 54
5.4连接和参考 55
5.5小结 55
第6章 操作RDD 57
6.1用Scala和Java操作RDD 58
6.2用Python操作RDD 79
6.3链接和参考 83
6.4小结 84
第7章Shark-Hive和Spark的综合运用 85
7.1为什么用Hive/Shark 86
7.2安装Shark 86
7.3运行Shark 88
7.4加载数据 88
7.5在Spark程序中运行HiveQL查询 89
7.6链接和参考 92
7.7小结 93
第8章 测试 95
8.1用Java和Scala测试 96
8.2用Python测试 103
8.3链接和参考 104
8.4小结 105
第9章 技巧和窍门 107
9.1日志位置 108
9.2并发限制 108
9.3内存使用与垃圾回收 109
9.4序列化 110
9.5 IDE集成环境 111
9.6 Spark与其他语言 112
9.7安全提示 113
9.8邮件列表 113
9.9链接和参考 113
9.10小结 114