第1章 大数据概论 1
1.1 大数据技术概述 2
1.1.1 大数据的基本概念 2
1.1.2 IT产业的发展简史 3
1.1.3 大数据的来源 5
1.1.4 大数据产生的三个发展阶段 6
1.1.5 大数据的特点 6
1.1.6 大数据处理流程 7
1.1.7 大数据的数据格式特性 8
1.1.8 大数据的特征 8
1.1.9 大数据的应用领域 9
1.2 大数据技术架构 9
1.3 大数据的整体技术和关键技术 10
1.4 大数据分析的五种典型工具简介 13
1.5 大数据未来发展趋势 16
1.5.1 数据资源化 16
1.5.2 数据科学和数据联盟的成立 16
1.5.3 大数据隐私和安全问题 16
1.5.4 开源软件成为推动大数据发展的动力 17
1.5.5 大数据在多方位改善我们的生活 17
本章小结 18
第2章 大数据采集及预处理 19
2.1 大数据采集 20
2.1.1 大数据采集概述 20
2.1.2 大数据采集的数据来源 20
2.1.3 大数据采集的技术方法 22
2.2 大数据的预处理 24
2.3 大数据采集及预处理的工具 31
本章小结 42
第3章 大数据分析概述 44
3.1 大数据分析简介 45
3.1.1 什么是大数据分析 45
3.1.2 大数据分析的基本方法 45
3.1.3 大数据处理流程 47
3.2 大数据分析的主要技术 49
3.2.1 深度学习 49
3.2.2 知识计算 51
3.2.3 可视化 51
3.3 大数据分析处理系统简介 54
3.3.1 批量数据及处理系统 54
3.3.2 流式数据及处理系统 54
3.3.3 交互式数据及处理系统 55
3.3.4 图数据及处理系统 55
3.4 大数据分析的应用 57
本章小结 60
第4章 大数据可视化 62
4.1 大数据可视化概述 62
4.1.1 大数据可视化与数据可视化 63
4.1.2 大数据可视化的过程 64
4.2 大数据可视化工具 69
4.2.1 常见大数据可视化工具简介 70
4.2.2 Tableau数据可视化入门 71
本章小结 79
第5章 Hadoop概论 81
5.1 Hadoop简介 82
5.1.1 Hadoop的发展简史 82
5.1.2 Hadoop应用现状和发展趋势 83
5.2 Hadoop的架构与组成 85
5.2.1 Hadoop架构 85
5.2.2 Hadoop组成模块介绍 86
5.3 Hadoop的应用 89
5.3.1 Hadoop平台搭建 89
5.3.2 Hadoop的开发方式 91
5.3.3 Hadoop应用分析 92
本章小结 93
第6章 HDFS和Common概论 95
6.1 HDFS概述 96
6.1.1 HDFS相关概念 96
6.1.2 HDFS特点 97
6.1.3 HDFS体系结构 98
6.1.4 HDFS工作原理 99
6.1.5 HDFS相关技术 101
6.1.6 HDFS源代码结构 104
6.1.7 HDFS接口 105
6.2 Common概述 106
本章小结 108
第7章 MapReduce概论 110
7.1 MapReduce简介 111
7.1.1 如何理解MapReduce 111
7.1.2 MapReduce功能和技术特征 112
7.2 MapReduce的Map和Reduce任务 114
7.2.1 Map与Reduce 114
7.2.2 Map任务原理 117
7.2.3 Reduce任务原理 118
7.3 MapReduce架构和工作流程 119
7.3.1 MapReduce的架构 119
7.3.2 MapReduce工作流程 120
7.4 MapReduce编程源码范例 120
7.5 MapReduce接口 121
本章小结 122
第8章 NoSQL技术介绍 124
8.1 NoSQL基础知识 126
8.1.1 NoSQL的产生 126
8.1.2 NoSQL的特点 126
8.1.3 NoSQL的技术基础 127
8.2 NoSQL的种类 131
8.2.1 键值存储 131
8.2.2 列存储 132
8.2.3 面向文档存储 132
8.2.4 图形存储 133
8.3 典型的NoSQL工具 134
8.3.1 Redis 135
8.3.2 Bigtable 135
8.3.3 CouchDB 137
8.3.4 Neo4j 138
本章小结 138
第9章 Spark概论 140
9.1 Spark概述 141
9.1.1 Spark简介 141
9.1.2 Spark发展 141
9.1.3 Scala语言 142
9.2 Spark与Hadoop 142
9.2.1 Hadoop的局限与不足 143
9.2.2 Spark的优点 143
9.2.3 Spark速度比Hadoop快的原因分解 144
9.3 Spark大数据处理架构及其生态系统 145
9.3.1 底层的Cluster Manager和Data Manager 145
9.3.2 中间层的Spark Runtime 146
9.3.3 高层的应用模块 148
9.4 Spark的应用 150
9.4.1 Spark的应用场景 150
9.4.2 应用Spark的成功案例 150
本章小结 151
第10章 云计算与大数据 153
10.1 云计算概论 154
10.1.1 云计算定义 154
10.1.2 云计算与大数据的关系 155
10.1.3 云计算基本特征 155
10.1.4 云计算服务模式 156
10.2 云计算核心技术 157
10.2.1 虚拟化技术 157
10.2.2 虚拟化软件及应用 158
10.2.3 资源池化技术 160
10.2.4 云计算部署模式 161
10.3 云计算仿真 162
10.4 云计算的安全 163
10.4.1 云计算安全现状 164
10.4.2 云计算安全服务体系 164
10.5 云计算应用案例 165
本章小结 172
第11章 大数据解决方案及相关案例 174
11.1 大数据解决方案基础 175
11.2 Intel大数据 176
11.2.1 Intel大数据解决方案 176
11.2.2 Intel大数据相关案例——中国移动广东公司详单、账单查询系统 178
11.3 百度大数据 180
11.3.1 百度大数据引擎 180
11.3.2 百度大数据+平台 181
11.3.3 相关应用 181
11.3.4 百度预测的使用方法 186
11.4 腾讯大数据 188
11.4.1 腾讯大数据解决方案 188
11.4.2 相关实例——广点通 190
本章小结 192
参考文献 193