《数据仓库 原书第4版》PDF下载

  • 购买积分:12 如何计算积分?
  • 作  者:(美)William H. Inmon著;王志海等译
  • 出 版 社:北京:机械工业出版社
  • 出版年份:2006
  • ISBN:7111191943
  • 页数:311 页
图书介绍:本书系统讲述数据仓库的基本概念、基本原理以及建立数据仓库的方法和过程。主要内容包括:决策支持系统的发展、数据仓库环境结构、数据仓库设计、数据仓库粒度划分、数据仓库技术、分布式数据仓库、EIS系统和数据仓库的关系、外部和非结构化数据与数据仓库的关系、数据装裁问题、数据仓库与Web、ERP与数据仓库以及数据仓库设计的复查要目。 本书是数据仓库之父撰写的关于数据仓库的最权威著作,既可作为相关专业的研究生教材,也是数据仓库的研究、开发和管理人员的必备指南。

第1章 决策支持系统的发展 1

1.1 演化 1

1.1.1 直接存取存储设备的出现 2

1.1.2 个人计算机/第四代编程语言技术 3

1.1.3 进入抽取程序 3

1.1.4 蜘蛛网 4

1.2 自然演化式体系结构的问题 4

1.2.1 数据缺乏可信性 5

1.2.2 生4产率问题 6

1.2.3 从数据到信息 8

1.2.4 方法的变迁 9

1.2.5 体系结构化环境 11

1.2.6 体系结构化环境中的数据集成 12

1.2.7 用户是谁 13

1.3 开发生命周期 14

1.4 硬件利用模式 15

1.5 为重建工程创造条件 15

1.6 控数据仓库环境 17

1.7 小结 19

第2章 数据仓库环境 20

2.1 数据仓库的结构 23

2.2 面向主题 23

2.3 第1天到第n天的现象 26

2.4 粒度 28

2.4.1 粒度带来的好处 29

2.4.2 粒度的一个例子 29

2.4.3 双重粒度 31

2.5 探查与数据挖掘 34

2.6 活样本数据库 34

2.7 分区设计方法 35

2.8 数据仓库中的数据组织 38

2.9 审计与数据仓库 41

2.10 数据的同构/异构 41

2.11 数据仓库中的数据清理 42

2.12 报表与体系结构化环境 43

2.13 各种环境中的操作型窗口 43

2.15 小结 45

2.14 数据仓库中的错误数据 45

第3章 设计数据仓库 47

3.1 从操作型数据开始 47

3.2 数据/过程模型与体系结构化环境 51

3.3 数据仓库与数据模型 52

3.3.1 数据仓库的数据模型 54

3.3.2 中间层数据模型 54

3.3.3 物理数据模型 59

3.4 数据模型与迭代式开发 60

3.5 规范化/反向规范化 61

3.6 元数据 67

3.7 数据周期——时间间隔 69

3.8 转换和集成的复杂性 70

3.9 数据仓库记录的触发 73

3.9.1 事件 73

3.9.2 快照的构成 73

3.9.3 一些例子 74

3.10 概要记录 74

3.11 管理大量数据 75

3.13 从数据仓库环境到操作型环境 76

3.12 创建多个概要记录 76

3.14 数据仓库数据的直接操作型访问 77

3.15 数据仓库数据的间接访问 77

3.15.1 航空公司的佣金计算系统 78

3.15.2 零售个性化系统 79

3.15.3 信用审核 80

3.16 数据仓库数据的间接使用 81

3.17 星形连接 82

3.18 支持操作型数据存储 86

3.19 需求和Zachman框架 87

3.20 小结 88

第4章 数据仓库中的粒度 90

4.1 粗略估算 90

4.2 规划过程的输入 91

4.3 溢出存储器中的数据 92

4.4 确定粒度级别 95

4.5 一些反馈循环技巧 96

4.6 确定粒度级别的几个例子 97

4.6.1 银行环境中的粒度级别 97

4.6.2 制造业环境中的粒度级别 99

4.6.3 保险业环境中的粒度级别 100

4.7 填充数据集市 102

4.8 小结 102

第5章 数据仓库和技术 103

5.1 管理大量数据 103

5.2 管理多种介质 104

5.3 索引和监控数据 104

5.6 数据的并行存储和管理 105

5.5 程序员/设计者对数据存放位置的控制 105

5.4 多种技术的接口 105

5.7 语言接口 107

5.8 数据的有效装载 107

5.9 有效利用索引 108

5.10 数据压缩 108

5.11 复合主键 109

5.12 变长数据 109

5.16 其他的技术特征 110

5.15 快速恢复 110

5.14 只涉及索引的处理 110

5.13 加锁管理 110

5.17 DBMS类型和数据仓库 111

5.18 改变DBMS技术 112

5.19 多维DBMS和数据仓库 112

5.20 在多种存储介质上构建数据仓库 117

5.21 数据仓库环境中元数据的角色 117

5.22 上下文和内容 119

5.22.1 上下文信息的三种类型 119

5.22.2 捕获和管理上下文信息 120

5.22.3 回顾上下文信息管理历史 121

5.23 刷新数据仓库 121

5.24 测试问题 122

5.25 小结 123

第6章 分布式数据仓库 124

6.1 分布式数据仓库的类型 124

6.1.1 局部数据仓库和全局数据仓库 124

6.1.2 技术分布式数据仓库 135

6.1.3 独立开发的分布式数据仓库 136

6.2 开发项目的本质特征 136

6.3 分布式数据仓库的开发 139

6.3.1 在分布的地理位置间协调开发 140

6.3.2 企业数据的分布式模型 141

6.3.3 分布式数据仓库中的元数据 142

6.4 在多种层次上构建数据仓库 142

6.5 多个小组建立当前细节级 144

6.5.1 不同层的不同需求 146

6.5.2 其他类型的细节数据 148

6.5.3 元数据 148

6.7 小结 150

6.6 公共细节数据采用多种平台 150

第7章 主管信息系统和数据仓库 152

7.1 EIS概述 152

7.2 一个简单例子 152

7.3 向下钻取分析 154

7.4 支持向下钻取处理 156

7.5 作为EIS基础的数据仓库 156

7.6 到哪里取数据 158

7.7 事件映射 159

7.8 细节数据和EIS 160

7.9 在EIS中只保存汇总数据 161

7.10 小结 162

第8章 外部数据与数据仓库 163

8.1 数据仓库中的外部数据 164

8.2 元数据和外部数据 165

8.3 存储外部数据 167

8.4 外部数据的不同部件 167

8.5 建模与外部数据 168

8.6 辅助报告 168

8.9 小结 169

8.7 外部数据存档 169

8.8 内部数据与外部数据的比较 169

第9章 迁移到体系结构化环境 171

9.1 一种迁移方案 171

9.2 反馈循环 176

9.3 策略方面的考虑 177

9.4 方法和迁移 179

9.5 数据驱动的开发方法 180

9.5.2 系统开发生命周期 181

9.5.1 概念 181

9.6 小结 182

9.5.3 智者观点 182

第10章 数据仓库和Web 183

10.1 支持电子商务环境 189

10.2 将数据从Web移动到数据仓库 190

10.3 将数据从数据仓库移动到Web 190

10.4 对Web的支持 190

10.5 小结 191

第11章 非结构化数据和数据仓库 192

11.1.1 文本——公共联接 193

11.1 两个领域的集成 193

11.1.2 基本错误匹配 195

11.1.3 环境间文本匹配 195

11.1.4 概率匹配 195

11.1.5 匹配所有信息 196

11.2 主题匹配 197

11.2.1 产业特征主题 197

11.2.2 自然事件主题 199

11.2.4 通过抽象和元数据关联 200

11.2.3 通过主题和主题词关联 200

11.3 两层数据仓库 201

11.3.1 非结构化数据仓库分类 202

11.3.2 非结构化数据仓库中的文档 203

11.3.3 非结构化数据可视化 203

11.4 自组织图(SOM) 204

11.4.1 非结构化数据仓库 205

11.4.2 数据量和非结构化数据仓库 205

11.5 适用于两个环境 206

11.6 小结 207

第12章 大型数据仓库 208

12.1 快速增长的原因 208

12.2 庞大数据量的影响 209

12.2.1 基本数据管理活动 209

12.2.2 存储费用 210

12.2.3 实际存储费用 210

12.2.4 大型数据量中的数据使用模式 211

12.2.5 一个简单计算 211

12.2.7 数据分类涉及的问题 212

12.2.6 两类数据 212

12.3.1 近线存储 213

12.3 数据在不同介质的存储 213

12.3.2 访问速度和磁盘存储 214

12.3.3 存档存储 215

12.3.4 透明的意义 216

12.4 环境间数据转移 216

12.4.1 CMSM方法 217

12.4.2 数据仓库使用监控器 218

12.4.3 不同存储介质下数据仓库的扩展 218

12.7 最大容量 219

12.5 数据仓库转换 219

12.6 总费用 219

12.8 小结 220

第13章 关系模型和多维模型数据库设计基础 222

13.1 关系模型 222

13.2 多维模型 223

13.3 雪花结构 224

13.4 两种模型的区别 224

13.4.2 重建关系型数据 225

13.4.1 区别的起源 225

13.4.3 数据的直接访问和间接访问 226

13.4.4 支持将来未知的需求 227

13.4.5 支持适度变化的需求 227

13.5 独立数据集市 229

13.6 建立独立数据集市 230

13.7 小结 232

14.1.2 关系型的基础 233

14.1.1 数据仓库和数据模型 233

14.1 最终用户的需求和数据仓库 233

第14章 数据仓库高级话题 233

14.1.3 数据仓库和统计处理 234

14.2 数据仓库内的资源竞争 234

14.2.1 探查型数据仓库 235

14.2.2 数据挖掘型数据仓库 236

14.2.3 冻结探查型数据仓库 236

14.2.4 外部数据和探查型数据仓库 237

14.3 同一个处理器处理数据集市和数据仓库 237

14.4 数据的生命周期 238

14.5 测试和数据仓库 239

14.6 追踪数据仓库中的数据流 240

14.6.1 数据仓库中的数据速率 241

14.6.2 “推”和“拉”数据 242

14.7 数据仓库和基于网络的电子商务环境 242

14.7.1 两种环境之间的界面 242

14.7.2 粒度管理器 243

14.7.4 ODS,概要记录以及性能 244

14.7.3 概要记录 244

14.8 财务数据仓库 245

14.9 记录系统 246

14.10 结构体系的概要历史——演化为公司信息工厂 247

14.10.1 CIF的进化 249

14.10.2 障碍 249

14.11 CIF的未来 250

14.11.1 分析 250

14.11.2 ERP/SAP 250

14.11.4 数据量 251

14.11.3 非结构化数据 251

14.12 小结 252

第15章 数据仓库的成本论证和投资回报 254

15.1 应对竞争 254

15.2 宏观上的成本论证 254

15.3 微观上的成本论证 255

15.4 来自遗留环境的信息 256

15.4.4 建立数据仓库 257

15.4.3 成本比较 257

15.4.2 用数据仓库收集信息 257

15.4.1 新信息的成本 257

15.4.5 完整的情况图 258

15.4.6 得到数据的障碍 258

15.5 数据的时间价值 259

15.6 集成的信息 260

15.6.1 历史数据的价值 261

15.6.2 历史数据和客户关系模型 261

15.7 小结 261

16.1 互补的结构 263

第16章 数据仓库和ODS 263

16.1.1 ODS中的升级 264

16.1.2 历史数据与ODS 264

16.1.3 概要记录 264

16.2 不同种类的ODS 265

16.3 数据库设计——一种混合的方式 266

16.4 按比例画图 266

16.6 对ODS处理日进行分片 267

16.7 多个ODS 267

16.5 ODS中的事务集成 267

16.8 ODS和网络环境 268

16.9 ODS的一个例子 268

16.10 小结 269

第17章 企业信息依从准则和数据仓库 270

17.1 两个基本行为 270

17.2 财务依从准则 270

17.2.1 “是什么” 272

17.2.2 “为什么” 273

17.3 审计公司的交流信息 274

17.4 小结 276

18.1 农民 277

18.2 探险者 277

18.3 矿工 277

第18章 最终用户社区 277

18.4 旅行者 278

18.5 整个社区 278

18.6 不同的数据类型 278

18.7 成本论证和ROI分析 278

18.8 小结 279

19.1 何时进行设计复查 280

第19章 数据仓库设计的复查要目 280

19.2 谁负责设计复查 281

19.3 有哪些议事日程 281

19.4 结果 281

19.5 复查管理 281

19.6 典型的数据仓库设计复查 282

19.7 小结 295

术语表 296

参考文献 305