第1章 数据仓库简介 1
1.1什么是数据仓库 1
1.1.1数据仓库的定义 1
1.1.2建立数据仓库的原因 3
1.2操作型系统与分析型系统 5
1.2.1操作型系统 5
1.2.2分析型系统 8
1.2.3操作型系统和分析型系统对比 9
1.3数据仓库架构 10
1.3.1基本架构 10
1.3.2主要数据仓库架构 12
1.3.3操作数据存储 16
1.4抽取-转换-装载 17
1.4.1数据抽取 17
1.4.2数据转换 19
1.4.3数据装载 20
1.4.4开发ETL系统的方法 21
1.4.5常见ETL工具 21
1.5数据仓库需求 22
1.5.1基本需求 22
1.5.2数据需求 23
1.6小结 24
第2章 数据仓库设计基础 25
2.1关系数据模型 25
2.1.1关系数据模型中的结构 25
2.1.2关系完整性 28
2.1.3规范化 30
2.1.4关系数据模型与数据仓库 33
2.2维度数据模型 34
2.2.1维度数据模型建模过程 35
2.2.2维度规范化 36
2.2.3维度数据模型的特点 37
2.2.4星型模式 38
2.2.5雪花模式 40
2.3 Data Vault模型 42
2.3.1 Data Vault模型简介 42
2.3.2 Data Vault模型的组成部分 43
2.3.3 Data Vault模型的特点 44
2.3.4 Data Vault模型的构建 44
2.3.5 Data Vault模型实例 46
2.4数据集市 49
2.4.1数据集市的概念 50
2.4.2数据集市与数据仓库的区别 50
2.4.3数据集市设计 50
2.5数据仓库实施步骤 51
2.6小结 54
第3章 Hadoop生态圈与数据仓库 55
3.1大数据定义 55
3.2 Hadoop简介 56
3.2.1 Hadoop的构成 57
3.2.2 Hadoop的主要特点 58
3.2.3 Hadoop架构 58
3.3 Hadoop基本组件 59
3.3.1 HDFS 60
3.3.2 MapReduce 65
3.3.3 YARN 72
3.4 Hadoop生态圈的其他组件 77
3.5 Hadoop与数据仓库 81
3.5.1关系数据库的可扩展性瓶颈 82
3.5.2 CAP理论 84
3.5.3 Hadoop数据仓库工具 85
3.6小结 88
第4章 安装Hadoop 89
4.1 Hadoop主要发行版本 89
4.1.1 Cloudera Distribution for Hadoop(CDH) 89
4.1.2 Hortonworks Data Platform (HDP) 90
4.1.3 MapR Hadoop 90
4.2安装Apache Hadoop 91
4.2.1安装环境 91
4.2.2安装前准备 92
4.2.3安装配置Hadoop 93
4.2.4安装后配置 97
4.2.5初始化及运行 97
4.3配置HDFS Federation 99
4.4离线安装CDH及其所需的服务 104
4.4.1 CDH安装概述 104
4.4.2安装环境 106
4.4.3安装配置 106
4.4.4 Cloudera Manager许可证管理 114
4.5小结 115
第5章 Kettle与Hadoop 117
5.1 Kettle概述 117
5.2 Kettle连接Hadoop 119
5.2.1连接HDFS 119
5.2.2连接Hive 124
5.3导出导入Hadoop集群数据 128
5.3.1把数据从HDFS抽取到RDBMS 128
5.3.2向Hive表导入数据 132
5.4执行Hive的HiveQL语句 134
5.5 MapReduce转换示例 135
5.6 Kettle提交Spark作业 143
5.6.1安装Spark 143
5.6.2配置Kettle向Spark集群提交作业 146
5.7小结 149
第6章 建立数据仓库示例模型 150
6.1业务场景 150
6.2 Hive相关配置 152
6.2.1选择文件格式 152
6.2.2支持行级更新 159
6.2.3 Hive事务支持的限制 164
6.3 Hive表分类 164
6.4向Hive表装载数据 169
6.5建立数据库表 174
6.6装载日期维度数据 179
6.7小结 180
第7章 数据抽取 182
7.1逻辑数据映射 182
7.2数据抽取方式 185
7.3导出成文本文件 191
7.4分布式查询 196
7.5使用Sqoop抽取数据 200
7.5.1 Sqoop简介 200
7.5.2 CDH 5.7.0中的Sqoop 203
7.5.3使用Sqoop抽取数据 203
7.5.4 Sqoop优化 207
7.6小结 208
第8章 数据转换与装载 210
8.1数据清洗 210
8.2 Hive简介 214
8.2.1 Hive的体系结构 215
8.2.2 Hive的工作流程 216
8.2.3 Hive服务器 218
8.2.4 Hive客户端 221
8.3初始装载 231
8.4定期装载 236
8.5 Hive优化 246
8.6小结 254
第9章 定期自动执行ETL作业 256
9.1 crontab 256
9.2 Oozie简介 260
9.2.1 Oozie的体系结构 260
9.2.2 CDH 5.7.0中的Oozie 262
9.3建立定期装载工作流 262
9.4建立协调器作业定期自动执行工作流 271
9.5 Oozie优化 275
9.6小结 276
第10章 维度表技术 278
10.1增加列 278
10.2维度子集 285
10.3角色扮演维度 292
10.4层次维度 298
10.4.1固定深度的层次 299
10.4.2递归 302
10.4.3多路径层次 310
10.4.4参差不齐的层次 312
10.5退化维度 313
10.6杂项维度 316
10.7维度合并 323
10.8分段维度 329
10.9小结 335
第11章 事实表技术 336
11.1事实表概述 336
11.2周期快照 337
11.3累积快照 343
11.4无事实的事实表 349
11.5迟到的事实 354
11.6累积度量 360
11.7小结 366
第12章 联机分析处理 367
12.1联机分析处理简介 367
12.1.1概念 367
12.1.2分类 368
12.1.3性能 371
12.2 Impala简介 371
12.3 Hive、SparkSQL、Impala比较 377
12.3.1 Spark SQL简介 377
12.3.2 Hive、Spark SQL、Impala比较 379
12.3.3 Hive、Spark SQL、Impala性能对比 382
12.4联机分析处理实例 387
12.5 Apache Kylin与OLAP 399
12.5.1 Apache Kylin架构 399
12.5.2 Apache Kylin安装 401
12.6小结 407
第13章 数据可视化 408
13.1数据可视化简介 408
13.2 Hue简介 410
13.2.1 Hue功能快速预览 411
13.2.2配置元数据存储 412
13.3 Zeppelin简介 415
13.3.1 Zeppelin架构 415
13.3.2 Zeppelin安装配置 416
13.3.3在Zeppelin中添加MySQL翻译器 421
13.4 Hue、Zeppelin比较 425
13.5数据可视化实例 426
13.6小结 434