《DW2.0 下一代数据仓库的构架》PDF下载

  • 购买积分:10 如何计算积分?
  • 作  者:(美)英蒙等著
  • 出 版 社:北京:机械工业出版社
  • 出版年份:2010
  • ISBN:9787111288268
  • 页数:218 页
图书介绍:本书是数据仓库和商业智能领域的又一部经典著作,讲述了整个生命周期各个环节的具体工作,从业务需求的视角,引导读者全面认识下一代数据仓库系统的构架。本书包含了DW2.0详细的定义和描述,此外,书中对数据仓库的结构、内容及其前景进行了介绍。本书主要面向数据仓库的业务分析人员、信息构架师、系统开发人员、项目经理、数据仓库技术人员、数据库管理员、数据建模人员、数据管理员等。

第1章 数据仓库简史及第一代数据仓库 1

1.1 数据库管理系统 1

1.2 在线应用 1

1.3 个人电脑和4GL技术 2

1.4 蜘蛛网环境 2

1.5 企业角度的演化 3

1.6 数据仓库环境 4

1.7 什么是数据仓库 4

1.8 整合数据——一个痛苦的经历 5

1.9 数据的量 5

1.10 一种不同的开发方法 6

1.11 演变到DW2.0环境 6

1.12 数据仓库的商业影响 7

1.13 数据仓库环境的各种组件 7

1.13.1 ETL——抽取/转换/装载 8

1.13.2 ODS——操作数据存储 8

1.13.3 数据集市 8

1.13.4 探索仓库 9

1.14 数据仓库的演变——从企业的角度 9

1.15 关于数据仓库的其他观念 9

1.16 主动数据仓库 10

1.17 联合数据仓库方法 10

1.18 星状模式方法 12

1.19 数据集市数据仓库 12

1.20 建立一个“真正的”数据仓库 13

1.21 总结 14

第2章 DW2.0简介 15

2.1 DW2.0——一种新的范式 15

2.2 DW2.0——从企业的角度 15

2.3 数据的生命周期 17

2.4 设置不同区的原因 19

2.5 元数据 20

2.6 数据访问 21

2.7 结构化数据/非结构化数据 22

2.8 文本分析 24

2.9 “废话” 25

2.10 术语问题 25

2.11 特定文本/一般文本 26

2.12 元数据——一个主要组成部分 26

2.13 本地元数据 28

2.14 基础技术 29

2.15 不断变化的业务需求 31

2.16 DW2.0中的数据流 32

2.17 数据量 32

2.18 实用应用程序 33

2.19 DW2.0和参照完整性 35

2.20 DW2.0的报告 35

2.21 总结 36

第3章 DW2.0组成部分——关于不同区 38

3.1 交互区 38

3.2 整合区 41

3.3 近线区 48

3.4 归档区 50

3.5 非结构化处理 56

3.6 企业用户的观点 59

3.7 总结 59

第4章 DW2.0中的元数据 61

4.1 数据和分析的可复用性 61

4.2 DW2.0中的元数据 61

4.3 主动知识库/被动知识库 63

4.4 主动知识库 64

4.5 企业元数据 64

4.6 元数据和记录系统 65

4.7 分类 66

4.8 内部分类/外部分类 66

4.9 归档区元数据 67

4.10 维护元数据 67

4.11 举例说明如何使用元数据 67

4.12 终端用户的观点 69

4.13 总结 70

第5章 DW2.0技术基础设施的流动性 71

5.1 技术基础设施 71

5.2 快速的业务改变 72

5.3 环状改变 73

5.4 打破循环 73

5.5 缩短IT响应时间 73

5.6 语义暂态、语义常态数据 74

5.7 语义暂态数据 74

5.8 语义稳定的数据 74

5.9 混合语义稳定和不稳定数据 75

5.10 分离语义稳定和不稳定数据 76

5.11 减缓业务的改变 76

5.12 创建数据快照 76

5.13 历史记录 77

5.14 数据划分 77

5.15 终端用户的观点 78

5.16 总结 78

第6章 DW2.0的方法与途径 79

6.1 螺旋式方法——主要特点综述 79

6.2 七流法——总览 82

6.3 企业参考模型流 82

6.4 企业知识协调流 83

6.5 信息工厂开发流 84

6.6 数据归档定位流 84

6.7 数据纠正流(旧称数据清理流) 84

6.8 基础设施流 84

6.9 整体信息质量管理流 86

6.10 总结 88

第7章 统计处理和DW2.0 90

7.1 两种类型的处理 90

7.2 使用统计分析 91

7.3 比较的完整性 91

7.4 启发式分析 92

7.5 冻结的数据 93

7.6 探索型处理 93

7.7 分析频率 93

7.8 探索工具 93

7.9 探索型处理数据的来源 95

7.10 更新探索数据 95

7.11 基于项目的数据 95

7.12 数据集市和探索工具 96

7.13 数据回流 97

7.14 在内部使用探索数据 98

7.15 企业分析员的观点 99

7.16 总结 100

第8章 数据模型与DW2.0 101

8.1 智能路线图 101

8.2 数据模型和企业 101

8.3 整合范围 101

8.4 区别粒状型数据和概括型数据 102

8.5 数据模型的层次 102

8.6 数据模型和交互区 104

8.7 企业数据模型 104

8.8 模型转化 105

8.9 数据模型和非结构化数据 105

8.10 企业用户的观点 106

8.11 总结 107

第9章 监视DW2.0环境 108

9.1 监视DW2.0环境 108

9.2 事务监视 108

9.3 数据质量监视 108

9.4 数据仓库监视 108

9.5 事务监视——响应时间 109

9.6 高峰期处理 110

9.7 ETL数据质量监视 110

9.8 数据仓库监视工具 111

9.9 休眠数据 112

9.10 企业用户的观点 112

9.11 总结 113

第10章 DW2.0与安全 114

10.1 保护访问数据 114

10.2 加密技术 114

10.3 缺点 114

10.4 防火墙 115

10.5 使数据脱机 115

10.6 限制性加密 116

10.7 直接转储 116

10.8 数据仓库监视 117

10.9 检测攻击 117

10.10 近线区数据的安全 118

10.11 企业用户的观点 118

10.12 总结 119

第11章 时间相关数据 120

11.1 DW2.0中的所有数据——与时间相关 120

11.2 交互区中的时间相关性 120

11.3 DW2.0其他部分中的数据相关 121

11.4 整合区中的事务处理 121

11.5 离散数据 121

11.6 连续时间段数据 122

11.7 一个记录序列 123

11.8 非重叠记录集 123

11.9 开始和结束一个记录序列 123

11.10 数据的连续性 124

11.11 时间瓦解数据 124

11.12 归档区中的时间相关变量 125

11.13 企业用户的观点 125

11.14 总结 125

第12章 DW2.0的数据流 127

12.1 贯穿整个构架的数据流 127

12.2 进入交互区 127

12.3 ETL的角色 128

12.4 进入整合区的数据流 128

12.5 进入近线区的数据流 128

12.6 进入归档区的数据流 129

12.7 下降的数据访问概率 130

12.8 数据的异常流 130

12.9 企业用户的观点 131

12.10 总结 132

第13章 ETL处理与DW2.0 133

13.1 转换数据状态 133

13.2 ETL适用范围 133

13.3 应用数据到企业数据的转换 133

13.4 ETL工作模式 134

13.5 源和目标 134

13.6 ETL映射 135

13.7 状态转换——实例 135

13.8 更加复杂的转换 136

13.9 ETL与吞吐量 136

13.10 ETL与元数据 137

13.11 ETL与审核记录 138

13.12 ETL与数据质量 138

13.13 创建ETL 138

13.14 代码创建或参数驱动的ETL 139

13.15 ETL与丢弃 139

13.16 变化数据的捕获 139

13.17 ELT 140

13.18 企业用户的观点 140

13.19 总结 141

第14章 DW2.0与粒度管理器 142

14.1 粒度管理器 142

14.2 提高粒度级别 142

14.3 过滤数据 143

14.4 粒度管理器的功能 144

14.5 本地与第三方粒度管理器的比较 144

14.6 粒度管理器的并行化 144

14.7 作为副产品的元数据 145

14.8 企业用户眼中的粒度管理器 145

14.9 总结 145

第15章 DW2.0和性能 146

15.1 好的性能——DW2.0的基石 146

15.2 在线响应时间 146

15.3 分析响应时间 147

15.4 数据的流动 147

15.5 队列 147

15.6 启发式处理 148

15.7 分析的生产率和响应时间 149

15.8 索引 149

15.9 移除休眠数据 150

15.10 终端用户培训 150

15.11 监控环境 151

15.12 容量规划 151

15.13 元数据 152

15.14 批处理的并行 152

15.15 事务处理的并行 153

15.16 工作负荷量的管理 153

15.17 数据集市 153

15.18 探索工具 155

15.19 将事务分为不同的类 155

15.20 服务标准协议 155

15.21 保护交互区 156

15.22 数据分割 156

15.23 选择合适的硬件 157

15.24 区分“农民”和“探索者” 157

15.25 数据的物理分组 157

15.26 检查自动产生的代码 158

15.27 企业用户的观点 158

15.28 总结 158

第16章 迁移 160

16.1 房屋和城市 160

16.2 在一个完美情况中迁移 160

16.3 完美情况几乎永远不会发生 160

16.4 增量式添加组件 161

16.5 添加归档区 162

16.6 建立企业元数据 163

16.7 建立元数据基础结构 163

16.8 “吞没”源系统 163

16.9 作为缓冲器的ETL 164

16.10 迁移到非结构化的环境 164

16.11 企业用户的观点 164

16.12 总结 165

第17章 成本验证和DW2.0 166

17.1 DW2.0的成本值吗 166

17.2 宏观层次的价值验证 166

17.3 微观层次的价值验证 166

17.4 公司B拥有DW2.0 167

17.5 生成新的分析 167

17.6 按步骤执行 168

17.7 总成本是多少 169

17.8 考虑公司B 169

17.9 考虑DW2.0的成本 169

17.10 信息的现实情况 170

17.11 DW2.0真正的经济效益 171

17.12 信息的时间价值 171

17.13 整合的价值 171

17.14 历史信息 172

17.15 第一代DW和DW2.0——在经济效益上的比较 172

17.16 企业用户的观点 173

17.17 总结 173

第18章 DW2.0中的数据质量 174

18.1 DW2.0中的数据质量工具集 175

18.2 数据分析工具和逆向工程数据模型 175

18.3 数据模型种类 176

18.4 数据分析不一致对自上而下建模的挑战 179

18.5 总结 180

第19章 DW2.0和非结构化数据 182

19.1 DW2.0和非结构化数据 182

19.2 文本读取 182

19.3 在哪里进行文本分析处理 183

19.4 文本整合 183

19.5 简单编辑 183

19.6 无用词 184

19.7 同义词替换 184

19.8 同义词串联 185

19.9 同形异义解析 185

19.10 建立主题 185

19.11 外部术语表/分类法 185

19.12 分词 186

19.13 替换拼写 186

19.14 跨语言的文本 187

19.15 直接搜索 187

19.16 间接搜索 187

19.17 术语 187

19.18 半结构化数据/值=名称数据 188

19.19 准备数据所需的技术 188

19.20 关系数据库 188

19.21 结构化/非结构化连接 189

19.22 企业用户的观点 189

19.23 总结 189

第20章 DW2.0与记录系统 191

20.1 其他记录系统 194

20.2 企业用户的观点 194

20.3 总结 194

第21章 多方面的话题 196

21.1 数据集市 196

21.2 数据集市带来的便利 196

21.3 转换数据集市数据 197

21.4 监视DW2.0 198

21.5 在数据集市间移动数据 198

21.6 不合格数据 199

21.7 用以平衡的条目 199

21.8 重新设置值 200

21.9 数据修正 202

21.10 数据移动的速度 202

21.11 数据仓库工具 203

21.12 总结 206

第22章 DW2.0环境中的处理 207

第23章 管理DW2.0环境 211

23.1 数据模型 211

23.2 构架管理 211

23.2.1 确定什么时候需要归档区 212

23.2.2 确定是否需要近线区 212

23.3 元数据管理 213

23.4 数据库管理 214

23.5 数据管理 214

23.6 系统和技术管理 215

23.7 DW2.0环境管理人员的管理 216

23.7.1 优化及优先冲突 217

23.7.2 预算 217

23.7.3 进度表和里程碑的确定 217

23.7.4 资源分配 217

23.7.5 管理咨询人员 217

23.8 总结 218