第1章 大数据基本概念 1
1.1 大数据的定义与特征 1
1.2 大数据的关键技术 2
1.3 主流的大数据平台 7
1.4 大数据的主要应用 11
1.5 本章小结 21
1.6 习题 21
第2章 Spark系统与编程简介 22
2.1 Spark概述 22
2.2 Spark系统架构及运行模式 26
2.3 Spark系统安装 30
2.4 Python编程基础 39
2.5 Spark的编程方式 57
2.6 Spark的监控管理 63
2.7 Spark RDD 65
2.8 编程的基本步骤 72
2.9 本章小结 77
2.10 习题 77
第3章 大数据分析基础算法与实例 78
3.1 大数据分析概述 78
3.2 Spark基础算法 79
3.3 实例:词频统计 81
3.4 实例:圆周率的计算 85
3.5 本章小结 87
3.6 习题 87
附录 87
第4章 面向大数据的机器学习算法与实例 90
4.1 机器学习简介 91
4.2 Spark MLlib介绍 98
4.3 机器学习应用实例 104
4.4 本章小结 120
4.5 习题 120
第5章 面向大数据的流数据分析算法与实例 122
5.1 Spark Streaming简介 122
5.2 Spark Streaming架构 124
5.3 Spark Streaming运行原理 131
5.4 Spark Streaming实例 133
5.5 容错、持久化和性能优化 140
5.6 本章小结 142
5.7 习题 143
第6章 面向大数据的图算法与实例 144
6.1 图的基本概念 144
6.2 图计算的同步机制 145
6.3 GraphFrames安装和基础使用 147
6.5 最短路径算法及实例 155
6.6 网页排名 156
6.7 本章小结 157
6.8 习题 158
第7章 大数据应用编程案例 159
7.1 基于遥感数据的海冰/雪检测 159
7.2 基于时间序列数据的预测 175
7.3 本章小结 190
7.4 习题 190
参考文献 192