《企业级数据仓库(ED4W)原理、设计与实践》PDF下载

  • 购买积分:13 如何计算积分?
  • 作  者:王彦龙编著
  • 出 版 社:北京:电子工业出版社
  • 出版年份:2006
  • ISBN:7121031094
  • 页数:359 页
图书介绍:本书作者曾主持建成了我国证券市场惟一涵盖全市场业务数据的大型企业级数据仓库,他将其基本于日常工作实践对数据仓库的概念和理论的理解及建设经验融入本书,详细地讲述了企业级数据仓库(EDW)的基本概念、规划、设计与实现,以及解决方案,并且还详细地描述了电信业、证券业和银行业数据仓库的案例,供数据仓库建设者借鉴。本书既是一本系统介绍数据仓库技术的通俗读物,又是一本数据仓库建设的实践指南,从本身架构到技术描述,从具体内容到实际操作,都不失为一本理论基础牢固、操作性极强的数据仓库经典图书,本书可供关注、从事数据仓库的技术人员、管理决策人员参考阅读,也适合作为大中院校研究生的参考教材。

1.1 什么是数据仓库 1

第1章 数据仓库的基本概念 1

1.1.1 数据仓库是面向主题的 3

1.1.2 数据仓库是集成的 3

1.1.3 数据仓库是非易失的 4

1.1.4 数据仓库是随时间不断变化的 4

1.2 数据仓库和OLTP数据库、数据集市的区别 5

1.2.1 数据仓库和OLTP数据库 5

1.2.2 数据仓库和数据集市 7

1.3 数据仓库技术的发展 11

1.3.1 数据仓库的起步阶段 11

1.3.2 企业级信息集成 12

1.3.3 企业级数据仓库 13

1.3.4 数据集市 14

1.3.5 争吵与混乱 14

1.4 数据仓库的投资回报 15

1.3.6 合并 15

第2章 数据仓库方法论 19

2.1 数据仓库规划 21

2.1.1 业务探索 21

2.1.2 信息调研 22

2.1.3 逻辑数据建模 22

2.1.4 数据仓库解决方案准备 23

2.2 数据仓库的设计与实现 23

2.2.1 系统体系结构设计 24

2.2.2 物理数据库和物理数据模型设计 24

2.2.3 数据转换 25

2.2.4 应用开发 26

2.2.5 数据挖掘 26

2.2.6 数据仓库管理 27

2.2.7 元数据管理 28

2.2.8 数据仓库评估 29

2.3 数据仓库的支持与增强 30

2.3.1 系统维护和支持 30

2.3.2 逻辑数据模型回顾 31

2.3.3 物理数据模型回顾 32

2.3.4 性能调整 32

2.3.5 容量规划 33

第3章 数据仓库解决方案 35

3.1 Teradata数据仓库解决方案 38

3.1.1 产品简介与特点介绍 38

3.1.2 数据装载 44

3.1.3 数据仓库管理工具 47

3.1.4 数据挖掘工具 50

3.2 IBM数据仓库解决方案 56

3.2.1 产品简介与特点介绍 56

3.2.2 ETL工具介绍 59

3.2.3 数据仓库工具介绍 60

3.2.4 联机分析工具介绍 63

3.2.5 前端图形工具介绍 65

3.2.6 数据挖掘工具介绍 66

3.3 Oracle数据仓库解决方案 67

3.3.1 产品简介与特点介绍 67

3.3.2 数据仓库工具介绍 69

3.3.3 联机分析工具介绍 71

3.3.4 数据挖掘工具介绍 74

3.3.5 展现工具介绍 76

第4章 实施规划     81

4.1 实施规划阶段的任务 81

4.2 业务探索 83

4.2.1 业务探索阶段的任务 84

4.2.2 业务探索阶段的产出 86

4.3.1 信息探索阶段的任务 89

4.3 信息探索 89

4.3.2 信息探索阶段的产出 93

第5章 系统设计     97

5.1 系统体系结构设计 97

5.1.1 设计原则 98

5.1.2 主要需求 99

5.1.3 层次架构 101

5.1.4 组件的详细设计 103

5.2 逻辑数据模型设计 110

5.2.1 设计方法 111

5.2.2 设计目标 114

5.2.3 设计过程 116

5.2.4 设计中的关键问题 121

5.3 物理数据模型设计 125

5.3.1 设计目标 126

5.3.2 技术手段 127

第6章 数据的抽取转换加载   137

6.1 数据接口 138

6.1.1 接口流程及要求 138

6.1.2 接口文件说明及格式 143

6.2 数据映射 145

6.2.1 数据映射阶段的任务 146

6.2.2 数据映射阶段的产出 148

6.3 ETL设计及流程管理 152

6.3.1 ETL阶段的任务 152

6.3.2 ETL系统的设计 156

第7章 数据汇总     163

7.1 数据汇总的概念 163

7.2 数据汇总的类型 165

7.2.1 实体化视图 166

7.2.2 中间汇总层 166

7.3 中间汇总层的设计原则 167

7.2.3 两种方式的优缺点 167

7.4 中间表的设计模板 169

7.4.1 源表与目标表的对应关系 169

7.4.2 抽取过程说明 170

7.5 数据挖掘基础数据集的设计与开发 170

7.5.1 水平结构的挖掘数据集 172

7.5.2 垂直结构的挖掘数据集 172

7.5.3 两种组织形式的比较 173

7.5.4 基础数据集的开发 173

7.6 数据汇总的典型案例 174

7.6.1 数据量 174

7.6.2 基础表结构 174

7.6.3 应用需求 176

7.6.4 设计中间表 177

8.1 KPI概述 181

第8章 关键绩效指标(KPI)分析   181

8.2 KPI设计方法 184

8.2.1 基本方法 184

8.2.2 结合平衡计分卡设计KPI 186

8.3 基于数据仓库的KPI应用 188

8.3.1 KPI设计 188

8.3.2 KPI应用系统 190

第9章 报表与即席查询    195

9.1 报表 196

9.1.1 固定报表 196

9.1.2 自定义报表 200

9.2 即席查询 204

9.2.1 查询方法 204

9.2.2 工具与技术 208

10.1.1 E.F.Codd的定义 211

第10章 OLAP分析与应用 211

10.1 OLAP的概念 211

10.1.2 OLAP委员会的定义 216

10.1.3 FASMI测试 216

10.2 OLAP相关术语 218

10.2.1 维(Dimension) 218

10.2.2 度量值(Measure) 218

10.2.3 维层次(Dimension Hierarchy) 219

10.2.4 维成员(Dimension Member) 219

10.2.5 多维模型(Multi-Dimensional Model) 220

10.2.6 数据立方体(Cube) 220

10.2.7 数据单元格(Cell) 221

10.3 OLAP操作 221

10.3.1 切片(Slice) 224

10.3.3 下钻(Drill Down) 225

10.3.2 切块(Dice) 225

10.3.4 上卷(Roll up) 226

10.3.5 旋转(Rotate) 226

10.4 OLAP主题的选择 228

10.4.1 自项向下——业务探索 229

10.4.2 自底向上——信息探索 231

10.4.3 技术实现 232

10.4.4 主题确定——自项向下与自底向上相结合 233

10.5 构造数据立方体 234

10.5.1 定义维度和度量信息 235

10.5.2 定义数据抽取和转换规则 235

10.5.3 Cube的存储 236

10.5.4 定义Cube的刷新方式 241

10.6 OLAP分析的方法 241

10.6.1 趋势分析 241

10.6.3 构成分析 243

10.6.2 排名分析 243

10.6.4 意外分析 244

10.6.5 比较分析 244

第11章 数据挖掘    247

11.1 数据挖掘的定义 248

11.1.1 技术上的定义 248

11.1.2 商业上的定义 249

11.1.3 数据挖掘和传统分析方法的区别 250

11.1.4 数据挖掘和数据仓库 250

11.2 数据挖掘方法论 251

11.2.1 阶段1:定义业务问题范围 251

11.2.2 阶段2:选择和抽样 252

11.2.3 阶段3:探索型数据分析 252

11.2.4 阶段4:建模 253

11.2.5 阶段5:实施 253

11.3 数据挖掘实施步骤 254

11.3.1 步骤1:准备数据 255

11.3.2 步骤2:抽样 255

11.3.3 步骤3,5:建立模型 255

11.3.4 步骤4:验证模型 255

11.3.5 步骤6:模型评分 256

11.3.6 步骤7,8:执行 256

11.3.7 步骤9:模型监测 256

11.4 数据挖掘案例 257

11.4.1 定义业务问题范围 257

11.4.2 数据准备 257

11.4.3 探索型数据分析 260

11.4.4 建模 262

11.4.5 模型评估 264

11.4.6 模型发布 267

12.1 数据质量的定义 269

第12章 数据质量    269

12.2 数据质量问题产生的影响 271

12.3 数据质量问题来源 271

12.4 数据质量检查 273

12.4.1 典型问题 273

12.4.2 检查原则 274

12.4.3 管理流程 275

第13章 元数据管理 281

13.1 元数据的概念及分类 281

13.1.1 按用途分类 281

13.1.2 按作用分类 283

13.2 元数据的作用 284

13.3 元数据管理标准化 286

13.3.1 OIM和CWM标准 286

13.3.2 CWM标准 287

13.4 元数据管理系统的设计原则 291

13.5 元数据管理系统举例 292

13.5.1 整体结构 293

13.5.2 元模型 294

13.5.3 元数据采集 294

13.5.4 元数据应用 295

第14章 性能调优    297

14.1 获取高性能的关键因素 297

14.1.1 应用需求 298

14.1.2 数据量 300

14.1.3 平台 302

14.2 性能调优的方法 304

14.3 应用级性能调优 305

14.3.1 索引技术 305

14.3.2 实体化视图 308

14.3.3 连接索引 308

14.3.4 数据库压缩 310

14.3.5 抽样近似 311

14.4 产品级性能调整 312

14.4.1 内存调整 312

14.4.2 I/O调整 313

14.4.3 并行度的调整 314

14.4.4 收集统计信息 315

第15章 数据集市     317

15.1 数据集市结构的发展历程 317

15.2 数据集市的概念 319

15.3 数据集市的几种架构 321

15.3.1 独立数据集市 321

15.3.2 从属数据集市 324

15.3.3 逻辑数据集市 326

16.1 电信业数据仓库案例 329

16.1.1 市场背景 329

第16章 数据仓库典型案例   329

16.1.2 项目背景 330

16.1.3 数据仓库选型 331

16.1.4 解决方案 331

16.1.5 实施效果 336

16.2 证券业数据仓库案例 337

16.2.1 市场背景 337

16.2.2 项目背景 339

16.2.3 数据仓库选型 342

16.2.4 解决方案 345

16.3 银行业数据仓库案例 347

16.3.1 市场背景 347

16.3.2 项目背景 348

16.3.3 数据仓库选型 349

16.3.4 解决方案 350

16.3.5 实施效果 358