《大数据治理与安全 从理论到开源实践》PDF下载

  • 购买积分:13 如何计算积分?
  • 作  者:刘驰,胡柏青,谢一等编著
  • 出 版 社:北京:机械工业出版社
  • 出版年份:2017
  • ISBN:9787111579977
  • 页数:388 页
图书介绍:作为大数据前沿的新兴领域,市面上大数据安全与治理的相关书籍屈指可数。本书在介绍大数据学术界最新动态与大数据行业生产实践的同时,对大数据安全与治理的最新理论与实践内容做了详尽的阐述。本书分为两部分:第一篇(理论篇),介绍大数据治理与安全的理论、方法和技术挑战等;第二篇(开源实现篇),介绍开源社区各类顶级开源项目,将研究与实践的内容根据不同组件分类。

第一篇 理论篇 2

第1章 大数据治理技术 2

1.1 概述 2

1.1.1 大数据治理的基本概念 2

1.1.2 大数据治理的意义和重要作用 5

1.2 框架 7

1.2.1 大数据治理框架概述 7

1.2.2 大数据治理的原则 9

1.2.3 大数据治理的范围 11

1.2.4 大数据治理的实施与评估 14

第2章 大数据安全、隐私保护和审计技术 19

2.1 大数据安全 19

2.1.1 大数据安全的意义和重要作用 19

2.1.2 大数据安全面临的问题与挑战 21

2.1.3 大数据安全防护技术 23

2.2 大数据隐私保护 26

2.2.1 大数据隐私保护的意义和重要作用 26

2.2.2 大数据隐私保护面临的问题与挑战 28

2.2.3 大数据隐私保护技术 31

2.3 大数据治理审计 34

2.3.1 大数据治理审计概述 34

2.3.2 大数据治理审计内容 37

2.3.3 大数据治理审计方法和技术 39

2.3.4 大数据治理审计流程 43

第二篇 开源实现篇 48

第3章 大数据治理之Apache Falcon 48

3.1 Apache Falcon概述 48

3.1.1 Apache Falcon技术概况 49

3.1.2 Apache Falcon发展近况 50

3.1.3 Apache Falcon技术优势 50

3.1.4 Apache Falcon架构 51

3.2 Apache Falcon的使用 53

3.2.1 Oozie的安装与配置 56

3.2.2 Falcon的安装与配置 61

3.2.3 实体XML的创建与声明 63

3.3 Apache Falcon场景设计与实现 74

3.3.1 数据管道 74

3.3.2 结构化数据导入分布式文件系统 82

3.3.3 结构化数据库与数据仓库的交互 89

3.3.4 跨集群数据传输 104

3.3.5 数据镜像 109

3.3.6 数据仓库中的数据操作 113

3.4 Apache Falcon优化与性能分析 118

3.4.1 Apache Falcon控制流 118

3.4.2 分布式部署 119

3.4.3 安全模式 120

3.4.4 Apache Falcon优化 122

3.5 Apache Falcon应用举例 123

3.5.1 InMobi基于Falcon的数据治理 123

3.5.2 Expedia基于Falcon的数据治理 125

3.6 本章小结 126

第4章 大数据治理之Apache Atlas 127

4.1 Apache Atlas概述 127

4.1.1 Apache Atlas技术概况 127

4.1.2 Apache Atlas发展近况 130

4.1.3 Apache Atlas技术优势 133

4.1.4 Apache Atlas架构 136

4.2 Apache Atlas的配置与使用 143

4.2.1 安装配置Apache Atlas 143

4.2.2 添加或修改Atlas Web UI的登录账户 158

4.2.3 配置Hive通过Hive HOOK导入数据 159

4.2.4 配置Sqoop通过Sqoop HOOK导入数据 163

4.2.5 配置Storm通过Storm HOOK导入数据 167

4.2.6 配置Falcon通过Falcon HOOK导入数据 173

4.3 Apache Atlas的场景设计 176

4.3.1 Atlas总场景介绍 176

4.3.2 Atlas非实时数据场景 178

4.3.3 Atlas实时数据场景 183

4.3.4 Hive数据表操作 183

4.4 Apache Atlas优化与性能分析 190

4.5 本章小结 193

第5章 大数据安全之Apache Ranger 194

5.1 Apache Ranger概述 194

5.1.1 Ranger技术概况 194

5.1.2 Ranger发展史及近况 196

5.1.3 Ranger的特点和作用 197

5.1.4 Ranger架构 199

5.1.5 Ranger应用场景 200

5.2 Apache Ranger的安全认证配置 201

5.2.1 Ranger安装与部署 201

5.2.2 安全及访问权限控制机制 206

5.2.3 Ranger集成HDFS的安全认证机制与配置 208

5.2.4 Ranger集成YARN的安全认证机制与配置 213

5.2.5 Ranger集成Hive的安全认证机制与配置 217

5.2.6 Ranger集成HBase的安全认证机制与配置 221

5.2.7 Ranger集成Kafka的安全认证机制与配置 228

5.2.8 Ranger集成Atlas的安全认证机制与配置 235

5.2.9 Ranger集成Storm的安全认证机制与配置 238

5.2.10 Ranger集成Solr的安全认证机制与配置 246

5.3 Apache Ranger的功能配置 254

5.3.1 Tag同步验证 254

5.3.2 各类Policy验证 255

5.4 Apache Ranger优化与性能分析 262

5.5 本章小结 263

第6章 大数据安全之Apache Sentry 265

6.1 Apache Sentry概述 265

6.1.1 Apache Sentry技术概况 265

6.1.2 Apache Sentry发展近况 267

6.1.3 Apache Sentry技术优势 269

6.1.4 Apache Sentry架构 272

6.2 Apache Sentry的安装与配置 274

6.2.1 先决条件 274

6.2.2 Impala的安装与调试 274

6.2.3 Apache Sentry的安装和配置 282

6.2.4 Apache Sentry与Impala的集成 286

6.3 Apache Sentry场景设计之Sentry对Impala的控制 288

6.3.1 场景数据准备 288

6.3.2 基于文件存储元数据的场景验证 288

6.3.3 基于数据库存储元数据的场景验证 292

6.4 Apache Sentry场景设计之Sentry对Hive的控制 296

6.4.1 Hive与Sentry的集成配置 296

6.4.2 准备实验数据 298

6.4.3 基于文件存储方式的数据表操作 298

6.4.4 基于数据库存储方式的数据表操作 301

6.5 本章小结 305

第7章 大数据安全之Kerberos认证 306

7.1 Kerberos概述 306

7.1.1 Kerberos技术概况 306

7.1.2 Kerberos发展史及近况 307

7.1.3 Kerberos架构 308

7.1.4 Kerberos的认证流程 309

7.1.5 Kerberos的风险与缺陷 311

7.1.6 Kerberos应用举例 312

7.2 Kerberos使用操作说明 314

7.2.1 名词解释 314

7.2.2 KDC常用操作 315

7.2.3 Client常用操作 316

7.3 Kerberos集成环境配置 317

7.3.1 Kerberos服务配置 318

7.3.2 HDFS集成Kerberos的安装与调试 322

7.3.3 YARN集成Kerberos的安装与调试 330

7.3.4 Hive集成Kerberos的配置与调试 336

7.3.5 Zookeeper集成Kerberos的配置与调试 341

7.3.6 HBase集成Kerberos的配置与调试 343

7.3.7 Sqoop集成Kerberos的配置与调试 348

7.3.8 Hue集成Kerberos的安装与调试 351

7.3.9 Spark集成Kerberos的安装与调试 361

7.3.10 Solr集成Kerberos的安装与调试 366

7.3.11 Kafka集成Kerberos的配置与调试 371

7.3.12 Storm集成Kerberos的安装与调试 377

7.3.13 Impala集成Kerberos的安装与调试 382

7.4 Kerberos配置优化及常见问题 386

7.4.1 Kerberos的认证方式 386

7.4.2 时间同步 386

7.4.3 ticket周期 387

7.4.4 KVNO导致的认证失败 387

7.5 本章小结 388