第一篇 理论篇 2
第1章 大数据治理技术 2
1.1 概述 2
1.1.1 大数据治理的基本概念 2
1.1.2 大数据治理的意义和重要作用 5
1.2 框架 7
1.2.1 大数据治理框架概述 7
1.2.2 大数据治理的原则 9
1.2.3 大数据治理的范围 11
1.2.4 大数据治理的实施与评估 14
第2章 大数据安全、隐私保护和审计技术 19
2.1 大数据安全 19
2.1.1 大数据安全的意义和重要作用 19
2.1.2 大数据安全面临的问题与挑战 21
2.1.3 大数据安全防护技术 23
2.2 大数据隐私保护 26
2.2.1 大数据隐私保护的意义和重要作用 26
2.2.2 大数据隐私保护面临的问题与挑战 28
2.2.3 大数据隐私保护技术 31
2.3 大数据治理审计 34
2.3.1 大数据治理审计概述 34
2.3.2 大数据治理审计内容 37
2.3.3 大数据治理审计方法和技术 39
2.3.4 大数据治理审计流程 43
第二篇 开源实现篇 48
第3章 大数据治理之Apache Falcon 48
3.1 Apache Falcon概述 48
3.1.1 Apache Falcon技术概况 49
3.1.2 Apache Falcon发展近况 50
3.1.3 Apache Falcon技术优势 50
3.1.4 Apache Falcon架构 51
3.2 Apache Falcon的使用 53
3.2.1 Oozie的安装与配置 56
3.2.2 Falcon的安装与配置 61
3.2.3 实体XML的创建与声明 63
3.3 Apache Falcon场景设计与实现 74
3.3.1 数据管道 74
3.3.2 结构化数据导入分布式文件系统 82
3.3.3 结构化数据库与数据仓库的交互 89
3.3.4 跨集群数据传输 104
3.3.5 数据镜像 109
3.3.6 数据仓库中的数据操作 113
3.4 Apache Falcon优化与性能分析 118
3.4.1 Apache Falcon控制流 118
3.4.2 分布式部署 119
3.4.3 安全模式 120
3.4.4 Apache Falcon优化 122
3.5 Apache Falcon应用举例 123
3.5.1 InMobi基于Falcon的数据治理 123
3.5.2 Expedia基于Falcon的数据治理 125
3.6 本章小结 126
第4章 大数据治理之Apache Atlas 127
4.1 Apache Atlas概述 127
4.1.1 Apache Atlas技术概况 127
4.1.2 Apache Atlas发展近况 130
4.1.3 Apache Atlas技术优势 133
4.1.4 Apache Atlas架构 136
4.2 Apache Atlas的配置与使用 143
4.2.1 安装配置Apache Atlas 143
4.2.2 添加或修改Atlas Web UI的登录账户 158
4.2.3 配置Hive通过Hive HOOK导入数据 159
4.2.4 配置Sqoop通过Sqoop HOOK导入数据 163
4.2.5 配置Storm通过Storm HOOK导入数据 167
4.2.6 配置Falcon通过Falcon HOOK导入数据 173
4.3 Apache Atlas的场景设计 176
4.3.1 Atlas总场景介绍 176
4.3.2 Atlas非实时数据场景 178
4.3.3 Atlas实时数据场景 183
4.3.4 Hive数据表操作 183
4.4 Apache Atlas优化与性能分析 190
4.5 本章小结 193
第5章 大数据安全之Apache Ranger 194
5.1 Apache Ranger概述 194
5.1.1 Ranger技术概况 194
5.1.2 Ranger发展史及近况 196
5.1.3 Ranger的特点和作用 197
5.1.4 Ranger架构 199
5.1.5 Ranger应用场景 200
5.2 Apache Ranger的安全认证配置 201
5.2.1 Ranger安装与部署 201
5.2.2 安全及访问权限控制机制 206
5.2.3 Ranger集成HDFS的安全认证机制与配置 208
5.2.4 Ranger集成YARN的安全认证机制与配置 213
5.2.5 Ranger集成Hive的安全认证机制与配置 217
5.2.6 Ranger集成HBase的安全认证机制与配置 221
5.2.7 Ranger集成Kafka的安全认证机制与配置 228
5.2.8 Ranger集成Atlas的安全认证机制与配置 235
5.2.9 Ranger集成Storm的安全认证机制与配置 238
5.2.10 Ranger集成Solr的安全认证机制与配置 246
5.3 Apache Ranger的功能配置 254
5.3.1 Tag同步验证 254
5.3.2 各类Policy验证 255
5.4 Apache Ranger优化与性能分析 262
5.5 本章小结 263
第6章 大数据安全之Apache Sentry 265
6.1 Apache Sentry概述 265
6.1.1 Apache Sentry技术概况 265
6.1.2 Apache Sentry发展近况 267
6.1.3 Apache Sentry技术优势 269
6.1.4 Apache Sentry架构 272
6.2 Apache Sentry的安装与配置 274
6.2.1 先决条件 274
6.2.2 Impala的安装与调试 274
6.2.3 Apache Sentry的安装和配置 282
6.2.4 Apache Sentry与Impala的集成 286
6.3 Apache Sentry场景设计之Sentry对Impala的控制 288
6.3.1 场景数据准备 288
6.3.2 基于文件存储元数据的场景验证 288
6.3.3 基于数据库存储元数据的场景验证 292
6.4 Apache Sentry场景设计之Sentry对Hive的控制 296
6.4.1 Hive与Sentry的集成配置 296
6.4.2 准备实验数据 298
6.4.3 基于文件存储方式的数据表操作 298
6.4.4 基于数据库存储方式的数据表操作 301
6.5 本章小结 305
第7章 大数据安全之Kerberos认证 306
7.1 Kerberos概述 306
7.1.1 Kerberos技术概况 306
7.1.2 Kerberos发展史及近况 307
7.1.3 Kerberos架构 308
7.1.4 Kerberos的认证流程 309
7.1.5 Kerberos的风险与缺陷 311
7.1.6 Kerberos应用举例 312
7.2 Kerberos使用操作说明 314
7.2.1 名词解释 314
7.2.2 KDC常用操作 315
7.2.3 Client常用操作 316
7.3 Kerberos集成环境配置 317
7.3.1 Kerberos服务配置 318
7.3.2 HDFS集成Kerberos的安装与调试 322
7.3.3 YARN集成Kerberos的安装与调试 330
7.3.4 Hive集成Kerberos的配置与调试 336
7.3.5 Zookeeper集成Kerberos的配置与调试 341
7.3.6 HBase集成Kerberos的配置与调试 343
7.3.7 Sqoop集成Kerberos的配置与调试 348
7.3.8 Hue集成Kerberos的安装与调试 351
7.3.9 Spark集成Kerberos的安装与调试 361
7.3.10 Solr集成Kerberos的安装与调试 366
7.3.11 Kafka集成Kerberos的配置与调试 371
7.3.12 Storm集成Kerberos的安装与调试 377
7.3.13 Impala集成Kerberos的安装与调试 382
7.4 Kerberos配置优化及常见问题 386
7.4.1 Kerberos的认证方式 386
7.4.2 时间同步 386
7.4.3 ticket周期 387
7.4.4 KVNO导致的认证失败 387
7.5 本章小结 388