当前位置:首页 > 工业技术
Hadoop构建数据仓库实践
Hadoop构建数据仓库实践

Hadoop构建数据仓库实践PDF电子书下载

工业技术

  • 电子书积分:14 积分如何计算积分?
  • 作 者:王雪迎著
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2017
  • ISBN:9787302469803
  • 页数:434 页
图书介绍:本书内容包括数据仓库、Hadoop及其生态圈的相关概念,使用Sqoop从关系数据库全量或增量抽取数据,使用Hive进行数据转换和装载处理,使用Oozie调度作业周期性执行,使用Impala进行快速联机数据分析,使用Hue将数据可视化,以及数据仓库中的渐变维(SCD)、代理键、角色扮演维度、层次维度、退化维度、无事实的事实表、迟到的事实、累积的度量等常见问题在Hadoop上的处理等。
《Hadoop构建数据仓库实践》目录

第1章 数据仓库简介 1

1.1什么是数据仓库 1

1.1.1数据仓库的定义 1

1.1.2建立数据仓库的原因 3

1.2操作型系统与分析型系统 5

1.2.1操作型系统 5

1.2.2分析型系统 8

1.2.3操作型系统和分析型系统对比 9

1.3数据仓库架构 10

1.3.1基本架构 10

1.3.2主要数据仓库架构 12

1.3.3操作数据存储 16

1.4抽取-转换-装载 17

1.4.1数据抽取 17

1.4.2数据转换 19

1.4.3数据装载 20

1.4.4开发ETL系统的方法 21

1.4.5常见ETL工具 21

1.5数据仓库需求 22

1.5.1基本需求 22

1.5.2数据需求 23

1.6小结 24

第2章 数据仓库设计基础 25

2.1关系数据模型 25

2.1.1关系数据模型中的结构 25

2.1.2关系完整性 28

2.1.3规范化 30

2.1.4关系数据模型与数据仓库 33

2.2维度数据模型 34

2.2.1维度数据模型建模过程 35

2.2.2维度规范化 36

2.2.3维度数据模型的特点 37

2.2.4星型模式 38

2.2.5雪花模式 40

2.3 Data Vault模型 42

2.3.1 Data Vault模型简介 42

2.3.2 Data Vault模型的组成部分 43

2.3.3 Data Vault模型的特点 44

2.3.4 Data Vault模型的构建 44

2.3.5 Data Vault模型实例 46

2.4数据集市 49

2.4.1数据集市的概念 50

2.4.2数据集市与数据仓库的区别 50

2.4.3数据集市设计 50

2.5数据仓库实施步骤 51

2.6小结 54

第3章 Hadoop生态圈与数据仓库 55

3.1大数据定义 55

3.2 Hadoop简介 56

3.2.1 Hadoop的构成 57

3.2.2 Hadoop的主要特点 58

3.2.3 Hadoop架构 58

3.3 Hadoop基本组件 59

3.3.1 HDFS 60

3.3.2 MapReduce 65

3.3.3 YARN 72

3.4 Hadoop生态圈的其他组件 77

3.5 Hadoop与数据仓库 81

3.5.1关系数据库的可扩展性瓶颈 82

3.5.2 CAP理论 84

3.5.3 Hadoop数据仓库工具 85

3.6小结 88

第4章 安装Hadoop 89

4.1 Hadoop主要发行版本 89

4.1.1 Cloudera Distribution for Hadoop(CDH) 89

4.1.2 Hortonworks Data Platform (HDP) 90

4.1.3 MapR Hadoop 90

4.2安装Apache Hadoop 91

4.2.1安装环境 91

4.2.2安装前准备 92

4.2.3安装配置Hadoop 93

4.2.4安装后配置 97

4.2.5初始化及运行 97

4.3配置HDFS Federation 99

4.4离线安装CDH及其所需的服务 104

4.4.1 CDH安装概述 104

4.4.2安装环境 106

4.4.3安装配置 106

4.4.4 Cloudera Manager许可证管理 114

4.5小结 115

第5章 Kettle与Hadoop 117

5.1 Kettle概述 117

5.2 Kettle连接Hadoop 119

5.2.1连接HDFS 119

5.2.2连接Hive 124

5.3导出导入Hadoop集群数据 128

5.3.1把数据从HDFS抽取到RDBMS 128

5.3.2向Hive表导入数据 132

5.4执行Hive的HiveQL语句 134

5.5 MapReduce转换示例 135

5.6 Kettle提交Spark作业 143

5.6.1安装Spark 143

5.6.2配置Kettle向Spark集群提交作业 146

5.7小结 149

第6章 建立数据仓库示例模型 150

6.1业务场景 150

6.2 Hive相关配置 152

6.2.1选择文件格式 152

6.2.2支持行级更新 159

6.2.3 Hive事务支持的限制 164

6.3 Hive表分类 164

6.4向Hive表装载数据 169

6.5建立数据库表 174

6.6装载日期维度数据 179

6.7小结 180

第7章 数据抽取 182

7.1逻辑数据映射 182

7.2数据抽取方式 185

7.3导出成文本文件 191

7.4分布式查询 196

7.5使用Sqoop抽取数据 200

7.5.1 Sqoop简介 200

7.5.2 CDH 5.7.0中的Sqoop 203

7.5.3使用Sqoop抽取数据 203

7.5.4 Sqoop优化 207

7.6小结 208

第8章 数据转换与装载 210

8.1数据清洗 210

8.2 Hive简介 214

8.2.1 Hive的体系结构 215

8.2.2 Hive的工作流程 216

8.2.3 Hive服务器 218

8.2.4 Hive客户端 221

8.3初始装载 231

8.4定期装载 236

8.5 Hive优化 246

8.6小结 254

第9章 定期自动执行ETL作业 256

9.1 crontab 256

9.2 Oozie简介 260

9.2.1 Oozie的体系结构 260

9.2.2 CDH 5.7.0中的Oozie 262

9.3建立定期装载工作流 262

9.4建立协调器作业定期自动执行工作流 271

9.5 Oozie优化 275

9.6小结 276

第10章 维度表技术 278

10.1增加列 278

10.2维度子集 285

10.3角色扮演维度 292

10.4层次维度 298

10.4.1固定深度的层次 299

10.4.2递归 302

10.4.3多路径层次 310

10.4.4参差不齐的层次 312

10.5退化维度 313

10.6杂项维度 316

10.7维度合并 323

10.8分段维度 329

10.9小结 335

第11章 事实表技术 336

11.1事实表概述 336

11.2周期快照 337

11.3累积快照 343

11.4无事实的事实表 349

11.5迟到的事实 354

11.6累积度量 360

11.7小结 366

第12章 联机分析处理 367

12.1联机分析处理简介 367

12.1.1概念 367

12.1.2分类 368

12.1.3性能 371

12.2 Impala简介 371

12.3 Hive、SparkSQL、Impala比较 377

12.3.1 Spark SQL简介 377

12.3.2 Hive、Spark SQL、Impala比较 379

12.3.3 Hive、Spark SQL、Impala性能对比 382

12.4联机分析处理实例 387

12.5 Apache Kylin与OLAP 399

12.5.1 Apache Kylin架构 399

12.5.2 Apache Kylin安装 401

12.6小结 407

第13章 数据可视化 408

13.1数据可视化简介 408

13.2 Hue简介 410

13.2.1 Hue功能快速预览 411

13.2.2配置元数据存储 412

13.3 Zeppelin简介 415

13.3.1 Zeppelin架构 415

13.3.2 Zeppelin安装配置 416

13.3.3在Zeppelin中添加MySQL翻译器 421

13.4 Hue、Zeppelin比较 425

13.5数据可视化实例 426

13.6小结 434

返回顶部