《实时数据仓库技术》PDF下载

  • 购买积分:8 如何计算积分?
  • 作  者:师金钢,郑艳著
  • 出 版 社:沈阳:东北大学出版社
  • 出版年份:2018
  • ISBN:9787551718844
  • 页数:128 页
图书介绍:本书在传统数据仓库技术的基础上,针对数据分析者与决策者新提出的高性能、实时性等需求,系统、详实地介绍实时数据仓库构建的关键技术,包括实时数据仓库体系结构、实时数据存储技术、变化数据捕获技术、更新查询调度技术、并行查询与优化技术、实时数据立方技术等。这些技术及相关内容都是研究实时数据仓库技术的基础,本书以之作为切入点然后详细展开,并尽可能地涵盖实时数据仓库技术的主要内容。

第1章 实时数据仓库技术概述 1

1.1 数据仓库技术 1

1.1.1 数据仓库的定义 3

1.1.2 数据仓库的特点 3

1.1.3 数据仓库的体系结构 4

1.1.4 数据仓库的模型 6

1.2 实时数据仓库技术 8

1.2.1 实时数据仓库的定义 8

1.2.2 实时数据仓库的新挑战 10

1.2.3 实时数据仓库的体系结构 10

1.2.4 实时数据仓库与传统数据仓库的比较 12

1.3 MapReduce技术 13

1.3.1 MapReduce编程模式 14

1.3.2 MapReduce框架的实现 14

1.3.3 Hadoop 17

第2章 实时数据仓库体系结构 23

2.1 实时数据仓库体系结构的设计 23

2.2 ODS分区 27

2.3 双镜像交替分区 28

2.4 数据仓库副本分区 30

2.5 多级缓存分区机制 32

2.5.1 缓存的数据新鲜度 33

2.5.2 缓存的更新算法 34

2.5.3 多级缓存分区机制的查询 35

2.5.4 查询冲突问题的解决 36

2.6 几种实时数据存储区的比较 37

第3章 变化数据捕获 39

3.1 变化数据捕获方法 39

3.1.1 基于数据源表的时间戳标注 39

3.1.2 基于日志的被动数据变化的捕获 40

3.1.3 基于触发器的主动数据变化的捕获 41

3.2 基于LogMiner的变化数据捕获 41

3.2.1 Oracle日志简述 42

3.2.2 Oracle日志的两种模式 42

3.2.3 LogMiner进行日志挖掘的基本流程 43

3.3 基于CDC的变化数据捕获 44

3.3.1 CDC工具捕获变化数据概述 44

3.3.2 CDC相关的数据库对象 48

3.3.3 对变化数据处理 49

3.3.4 CDC捕获模块流程设计 50

第4章 更新查询调度技术 52

4.1 更新查询调度技术概述 52

4.2 基于优先级的更新与查询平衡调度 53

4.2.1 系统模型 54

4.2.2 在线日志捕获数据 56

4.2.3 系统性能参数 58

4.2.4 PBBS调度算法 58

4.2.5 并行一致性控制策略 61

4.2.6 小结 61

4.3 支持QoS的更新和查询任务调度 62

4.3.1 概述 62

4.3.2 系统模型 63

4.3.3 查询任务的时间估算 68

4.3.4 调度算法 69

4.3.5 小结 73

第5章 实时数据仓库并行查询 74

5.1 概述 74

5.2 MapReduce的基本流程 75

5.3 基于MapReduce的并行关系运算 76

5.3.1 选择和投影运算 77

5.3.2 连接运算 78

5.3.3 除运算 80

5.3.4 聚集运算 82

5.4 基于分块结构的分布式数据库ChunkDB 84

5.4.1 ChunkDB的整体架构 84

5.4.2 ChunkDB分布式数据库 84

5.5 基于ChunkDB数据库的MapReduce计算 90

5.5.1 基于ChunkDB的MapReduce计算实现流程 90

5.5.2 DBInputFormat数据接口扩展 91

5.6 ChunkDB性能评估 92

5.6.1 评估环境 93

5.6.2 查询性能评价 93

5.6.3 集群规模的影响 95

第6章 实时数据立方技术 97

6.1 概述 97

6.2 基础知识 98

6.2.1 数据立方Cube 98

6.2.2 Dwarf数据立方 99

6.2.3 MapReduce 101

6.3 基于MapReduce的数据立方构建 101

6.4 Dwarf立方的分割 103

6.4.1 Dwarf立方的基础划分 103

6.4.2 Dwarf立方的多维划分 104

6.5 并行Dwarf数据立方 104

6.5.1 并行Dwarf的建立 105

6.5.2 并行Dwarf的查询 107

6.5.3 并行Dwarf的更新 108

6.5.4 并行Dwarf的优化 109

6.6 并行Dwarf性能分析 111

6.6.1 评估环境 111

6.6.2 Dwarf的建立和存储性能 112

6.6.3 Dwarf立方的查询性能 113

6.6.4 Dwarf立方的更新性能 114

6.6.5 集群节点数量的影响 115

第7章 MR-RTDWH系统 117

7.1 MR-RTDWH概述 117

7.2 MR-RTDWH系统设计 118

7.2.1 系统设计目标 118

7.2.2 系统体系结构 119

7.2.3 传统ETL模块 121

7.2.4 实时ETL模块 122

7.2.5 实时数据仓库存储 123

7.2.6 更新查询调度模块 124

7.2.7 MapReduce并行计算模块 125

7.2.8 MR-RTDWH系统实现 126

7.3 小结 127

参考文献 128