第1章 大数据概述 1
1.1 大数据的相关概念 2
1.2 大数据处理的基础技术 4
1.2.1 大数据处理流程 4
1.2.2 分布式计算 5
1.2.3 分布式文件系统 6
1.2.4 分布式数据库 7
1.2.5 数据库与数据仓库 8
1.2.6 云计算与虚拟化技术 8
1.2.7 虚拟化产品介绍 9
1.3 流行的大数据技术 12
1.4 大数据解决方案 17
1.5 大数据发展现状和趋势 19
1.5.1 大数据现状分析 19
1.5.2 大数据发展趋势 21
1.6 教学建议及教辅资料 22
习题 23
第2章 大数据软件基础 24
2.1 Linux基础 25
2.1.1 Linux简介 25
2.1.2 Linux基本操作 25
2.1.3 网络配置管理 29
2.1.4 其他常用网络命令 32
2.2 Java基础 34
2.2.1 面向对象与泛型 34
2.2.2 集合类 36
2.2.3 内部类与匿名类 37
2.2.4 反射 38
2.3 SQL语言基础 39
2.4 在VirtualBox上安装Linux集群 41
2.4.1 master节点的安装 41
2.4.2 配置Virtualbox网络及虚拟机网卡 49
2.4.3 slave节点的安装与配置 51
2.4.4 Java环境的安装 51
2.4.5 MySQL服务 52
2.4.6 SSH免密钥登录 53
2.4.7 配置时钟同步 55
习题 56
第3章 大数据存储技术 57
3.1 理解HDFS分布式文件系统 58
3.1.1 HDFS简介 58
3.1.2 HDFS的体系结构 59
3.1.3 HDFS中的数据流 62
3.2 NoSQL数据库 66
3.2.1 键值数据库Redis 66
3.2.2 列存储数据库HBase 68
3.2.3 文档数据库MongoDB 71
3.2.4 图数据库Neo4j 73
3.3 Hadoop的安装与配置 74
3.3.1 Hadoop的配置部署 75
3.3.2 启动Hadoop集群 79
3.4 HDFS文件管理 82
3.4.1 命令行访问HDFS 82
3.4.2 使用Java API访问HDFS 84
3.5 HBase的安装与配置 88
3.5.1 解压并安装HBase 88
3.5.2 配置HBase 88
3.6 HBase的使用 91
3.6.1 HBase-shell 91
3.6.2 Java API 94
习题 96
第4章 MapReduce分布式编程 97
4.1 MapReduce编程概述 98
4.2 MapReduce编程示例 98
4.2.1 词频统计程序示例 99
4.2.2 MapReduce编译与运行 101
4.3 深入理解MapReduce程序的运行过程 102
4.4 MapReduce任务调度框架 104
4.4.1 经典MapReduce任务调度模型 104
4.4.2 YARN框架原理及运行机制 105
4.5 MapReduce的数据类型与输入/输出格式 107
4.5.1 MapReduce的数据类型 107
4.5.2 MapReduce的文件输入/输出格式 107
4.6 MapReduce编程实例 111
4.6.1 视频类型统计 111
4.6.2 查询TOP10用户上传的视频列表 113
习题 118
第5章 数据采集与预处理 119
5.1 流数据采集工具Flume 120
5.1.1 Flume的安装 121
5.1.2 Flume的配置与运行 122
5.1.3 Flume源 124
5.1.4 Flume槽 127
5.1.5 通道、拦截器与处理器 129
5.2 数据传输工具Sqoop 130
5.2.1 Sqoop的安装 131
5.2.2 Sqoop的配置与运行 131
5.2.3 Sqoop实例 132
5.2.4 Sqoop导入过程 135
5.2.5 Sqoop导出过程 136
5.3 数据接入工具Kafka 136
5.3.1 Kafka的安装与配置 138
5.3.2 Kafka消息生产者 140
5.3.3 Kafka消息消费者 140
5.3.4 Kafka核心特性 141
习题 142
第6章 数据仓库与联机分析处理 143
6.1 数据仓库 144
6.1.1 数据仓库的概念 144
6.1.2 数据仓库与操作性数据库的区别 144
6.1.3 数据仓库的体系结构 145
6.2 多维数据模型 146
6.2.1 数据立方体 146
6.2.2 数据模型 147
6.2.3 多维数据模型中的OLAP操作 150
6.3 Hive 153
6.3.1 Hive简介 153
6.3.2 Hive的安装与配置 154
6.3.3 Hive使用 156
6.3.4 Hive导入数据实例 161
6.4 Kylin 164
6.4.1 Kylin简介 164
6.4.2 Kylin的安装与配置 165
6.4.3 Kylin的使用 168
6.5 Superset 175
6.5.1 Superset简介 175
6.5.2 Superset的安装与配置 175
6.5.3 Superset的使用 177
习题 186
第7章 大数据分析与挖掘技术 187
7.1 概述 188
7.1.1 数据挖掘简介 188
7.1.2 Mahout的安装与配置 189
7.2 推荐 192
7.2.1 推荐的定义与评估 192
7.2.2 Mahout中的常见推荐算法 194
7.2.3 对GroupLens数据集进行推荐与评价 196
7.3 聚类 198
7.3.1 聚类的基本概念 198
7.3.2 常见的Mahout数据结构 199
7.3.3 几种聚类算法 200
7.3.4 聚类应用实例 202
7.4 分类 206
7.4.1 分类的基本概念 206
7.4.2 Mahout中一些常见的训练分类器算法 208
7.4.3 应用实例:使用SGD训练分类器对新闻分类 210
习题 213
第8章 Spark分布式内存计算框架 214
8.1 Spark简介 215
8.2 Spark的编程模型 216
8.2.1 核心数据结构RDD 216
8.2.2 RDD上的操作 216
8.2.3 RDD的持久化 218
8.2.4 RDD计算工作流 218
8.3 Spark的调度机制 219
8.3.1 Spark分布式架构 219
8.3.2 Spark应用执行流程 220
8.3.3 Spark调度与任务分配 222
8.4 Spark应用案例 225
8.4.1 Spark Shell 225
8.4.2 单词计数 227
8.4.3 统计用户的视频上传数 229
8.4.4 查询Top100用户的上传视频列表 230
8.5 Spark生态圈其他技术 233
8.5.1 Spark SQL 233
8.5.2 Spark Streaming 235
8.5.3 MLlib 236
8.5.4 GraphX 242
8.6 Zeppelin:交互式分析Spark数据 243
8.6.1 Zeppelin简介 243
8.6.2 安装和启动 244
8.6.3 在Zeppelin中处理YouTube数据 244
习题 246
第9章 数据可视化技术 247
9.1 数据可视化概述 248
9.2 数据可视化工具 249
9.2.1 桌面可视化技术 249
9.2.2 OLAP可视化工具 251
9.2.3 Web可视化技术 251
9.3 可视化组件与ECharts示例 253
9.3.1 ECharts使用准备 253
9.3.2 ECharts示例 254
9.4 与大数据平台集成 268
9.4.1 获取对Hive数据库的连接 268
9.4.2 通过Java调用Hive提供的API操作数据 269
9.4.3 将数据提交到Web页面进行数据可视化 271
习题 272
第10章 大数据安全 273
10.1 大数据安全的挑战与对策 274
10.1.1 大数据安全与隐私的挑战 274
10.1.2 数据加密技术 275
10.1.3 大数据安全保障体系 275
10.1.4 华为大数据安全解决方案 276
10.2 基础设施安全 277
10.2.1 认证技术 278
10.2.2 访问控制 279
10.2.3 公钥基础设施 281
10.2.4 华为大数据平台 281
10.3 数据管理安全 285
10.3.1 数据溯源 285
10.3.2 数字水印 285
10.3.3 策略管理 287
10.3.4 完整性保护 287
10.3.5 数据脱敏 288
10.4 安全分析 290
10.4.1 大数据安全分析架构 290
10.4.2 大数据防DDoS攻击 292
10.4.3 攻击可视化与安全业务定制 297
10.5 隐私保护 298
10.5.1 隐私保护面临的挑战 298
10.5.2 内容关联密钥 298
10.5.3 华为大数据隐私保护方案 300
习题 302
附录 《大数据技术基础》配套实验课程方案简介 303
参考文献 304