第一章 绪论 1
概述 1
第一节 大数据的概念 1
何谓大数据 2
大数据结构类型 6
大数据的作用和影响 8
练习 9
第二节 大数据分析和计算 9
大数据分析计算的意义 10
大数据计算的特点 11
大数据计算系统架构 12
练习 16
第三节 大数据技术体系 17
大数据技术栈 17
大数据计算支撑技术 20
Hadoop生态系统 28
练习 30
第四节 Hadoop平台构建 30
Hadoop集群配置 30
Hadoop的安装与运行 32
练习 39
本章小结 39
第二章 大数据采集和预处理 41
概述 41
第一节 大数据采集 41
大数据采集的基本概念 42
大数据采集的技术和方法 45
大数据采集工具的设计 48
练习 50
第二节 互联网数据采集 51
基于网络爬虫的数据采集 51
系统日志采集 59
日志数据采集示例 63
练习 67
第三节 大数据清洗 68
数据质量问题 68
大数据清洗的对象 70
大数据清洗的基本方法 71
日志文件数据清洗示例 73
练习 75
第四节 大数据采集和预处理工具 76
Apache Flume 76
Splunk Forwarder 83
国内常见的大数据处理软件 84
练习 86
本章小结 86
第三章 大数据存储与管理 88
概述 88
第一节 分布式存储系统 89
集中式存储 89
分布式存储 90
练习 95
第二节 Hadoop分布式文件系统(HDFS) 96
HDFS的相关概念 96
HDFS的系统架构 100
HDFS的存储机制 102
HDFS的数据读写过程 104
HDFS应用编程 106
练习 114
第三节 非关系数据库(NoSQL) 115
NoSQL概述 115
NoSQL的技术基础 118
NoSQL的数据存储类型 120
典型的NoSQL工具 125
练习 132
第四节 分布式数据库HBase 132
HBase系统结构 133
HBase数据模型与存储 138
HBase数据读写 144
HBase应用编程 145
练习 152
本章小结 153
第四章 大数据分析与计算 156
概述 156
第一节 大数据分析 156
何谓大数据分析 157
大数据分析的类别 158
大数据分析的基本方法 160
练习 166
第二节 大数据挖掘 167
数据关联分析 168
数据聚类分析 169
数据分类与预测 177
练习 181
第三节 大数据处理系统(MapReduce/Spark) 182
MapReduce 182
Spark 191
练习 202
第四节 Spark应用示例 203
Spark配置及运行 203
Spark的Scala编程 208
Spark的主要应用场景 210
练习 211
本章小结 211
第五章 大数据可视化 214
第一节 可视化基础知识 214
数据可视化 215
大数据可视化 217
大数据可视化设计 220
练习 222
第二节 可视化分析研发资源与工具 222
信息图表工具 223
时间线工具 225
地图工具 226
可视化分析研发资源与编程语言 227
练习 229
第三节 大数据可视化应用 229
基于Web的数据可视化 229
文本数据可视化 234
社交网络可视化 235
练习 236
本章小结 237
第六章 大数据应用 239
第一节 大数据查询 239
大数据查询分析引擎 239
基于Spark的大数据实时查询 245
大数据查询实例及其技术发展 248
练习 249
第二节 大数据应用与发展 249
大数据的社会价值 249
大数据应用场景 252
大数据应用发展趋势 257
练习 259
第三节 大数据隐私与安全 259
大数据应用中的安全 260
大数据安全技术 261
大数据安全与隐私保护措施 264
练习 265
本章小结 265
附录A 课程测验 267
附录B 术语表 270
参考文献 278