第1章 决策支持系统的发展 1
1.1 演化 1
1.1.1 直接存取存储设备的出现 2
1.1.2 个人计算机/第四代编程语言技术 3
1.1.3 进入抽取程序 3
1.1.4 蜘蛛网 4
1.2 自然演化式体系结构的问题 4
1.2.1 数据缺乏可信性 5
1.2.2 生4产率问题 6
1.2.3 从数据到信息 8
1.2.4 方法的变迁 9
1.2.5 体系结构化环境 11
1.2.6 体系结构化环境中的数据集成 12
1.2.7 用户是谁 13
1.3 开发生命周期 14
1.4 硬件利用模式 15
1.5 为重建工程创造条件 15
1.6 控数据仓库环境 17
1.7 小结 19
第2章 数据仓库环境 20
2.1 数据仓库的结构 23
2.2 面向主题 23
2.3 第1天到第n天的现象 26
2.4 粒度 28
2.4.1 粒度带来的好处 29
2.4.2 粒度的一个例子 29
2.4.3 双重粒度 31
2.5 探查与数据挖掘 34
2.6 活样本数据库 34
2.7 分区设计方法 35
2.8 数据仓库中的数据组织 38
2.9 审计与数据仓库 41
2.10 数据的同构/异构 41
2.11 数据仓库中的数据清理 42
2.12 报表与体系结构化环境 43
2.13 各种环境中的操作型窗口 43
2.15 小结 45
2.14 数据仓库中的错误数据 45
第3章 设计数据仓库 47
3.1 从操作型数据开始 47
3.2 数据/过程模型与体系结构化环境 51
3.3 数据仓库与数据模型 52
3.3.1 数据仓库的数据模型 54
3.3.2 中间层数据模型 54
3.3.3 物理数据模型 59
3.4 数据模型与迭代式开发 60
3.5 规范化/反向规范化 61
3.6 元数据 67
3.7 数据周期——时间间隔 69
3.8 转换和集成的复杂性 70
3.9 数据仓库记录的触发 73
3.9.1 事件 73
3.9.2 快照的构成 73
3.9.3 一些例子 74
3.10 概要记录 74
3.11 管理大量数据 75
3.13 从数据仓库环境到操作型环境 76
3.12 创建多个概要记录 76
3.14 数据仓库数据的直接操作型访问 77
3.15 数据仓库数据的间接访问 77
3.15.1 航空公司的佣金计算系统 78
3.15.2 零售个性化系统 79
3.15.3 信用审核 80
3.16 数据仓库数据的间接使用 81
3.17 星形连接 82
3.18 支持操作型数据存储 86
3.19 需求和Zachman框架 87
3.20 小结 88
第4章 数据仓库中的粒度 90
4.1 粗略估算 90
4.2 规划过程的输入 91
4.3 溢出存储器中的数据 92
4.4 确定粒度级别 95
4.5 一些反馈循环技巧 96
4.6 确定粒度级别的几个例子 97
4.6.1 银行环境中的粒度级别 97
4.6.2 制造业环境中的粒度级别 99
4.6.3 保险业环境中的粒度级别 100
4.7 填充数据集市 102
4.8 小结 102
第5章 数据仓库和技术 103
5.1 管理大量数据 103
5.2 管理多种介质 104
5.3 索引和监控数据 104
5.6 数据的并行存储和管理 105
5.5 程序员/设计者对数据存放位置的控制 105
5.4 多种技术的接口 105
5.7 语言接口 107
5.8 数据的有效装载 107
5.9 有效利用索引 108
5.10 数据压缩 108
5.11 复合主键 109
5.12 变长数据 109
5.16 其他的技术特征 110
5.15 快速恢复 110
5.14 只涉及索引的处理 110
5.13 加锁管理 110
5.17 DBMS类型和数据仓库 111
5.18 改变DBMS技术 112
5.19 多维DBMS和数据仓库 112
5.20 在多种存储介质上构建数据仓库 117
5.21 数据仓库环境中元数据的角色 117
5.22 上下文和内容 119
5.22.1 上下文信息的三种类型 119
5.22.2 捕获和管理上下文信息 120
5.22.3 回顾上下文信息管理历史 121
5.23 刷新数据仓库 121
5.24 测试问题 122
5.25 小结 123
第6章 分布式数据仓库 124
6.1 分布式数据仓库的类型 124
6.1.1 局部数据仓库和全局数据仓库 124
6.1.2 技术分布式数据仓库 135
6.1.3 独立开发的分布式数据仓库 136
6.2 开发项目的本质特征 136
6.3 分布式数据仓库的开发 139
6.3.1 在分布的地理位置间协调开发 140
6.3.2 企业数据的分布式模型 141
6.3.3 分布式数据仓库中的元数据 142
6.4 在多种层次上构建数据仓库 142
6.5 多个小组建立当前细节级 144
6.5.1 不同层的不同需求 146
6.5.2 其他类型的细节数据 148
6.5.3 元数据 148
6.7 小结 150
6.6 公共细节数据采用多种平台 150
第7章 主管信息系统和数据仓库 152
7.1 EIS概述 152
7.2 一个简单例子 152
7.3 向下钻取分析 154
7.4 支持向下钻取处理 156
7.5 作为EIS基础的数据仓库 156
7.6 到哪里取数据 158
7.7 事件映射 159
7.8 细节数据和EIS 160
7.9 在EIS中只保存汇总数据 161
7.10 小结 162
第8章 外部数据与数据仓库 163
8.1 数据仓库中的外部数据 164
8.2 元数据和外部数据 165
8.3 存储外部数据 167
8.4 外部数据的不同部件 167
8.5 建模与外部数据 168
8.6 辅助报告 168
8.9 小结 169
8.7 外部数据存档 169
8.8 内部数据与外部数据的比较 169
第9章 迁移到体系结构化环境 171
9.1 一种迁移方案 171
9.2 反馈循环 176
9.3 策略方面的考虑 177
9.4 方法和迁移 179
9.5 数据驱动的开发方法 180
9.5.2 系统开发生命周期 181
9.5.1 概念 181
9.6 小结 182
9.5.3 智者观点 182
第10章 数据仓库和Web 183
10.1 支持电子商务环境 189
10.2 将数据从Web移动到数据仓库 190
10.3 将数据从数据仓库移动到Web 190
10.4 对Web的支持 190
10.5 小结 191
第11章 非结构化数据和数据仓库 192
11.1.1 文本——公共联接 193
11.1 两个领域的集成 193
11.1.2 基本错误匹配 195
11.1.3 环境间文本匹配 195
11.1.4 概率匹配 195
11.1.5 匹配所有信息 196
11.2 主题匹配 197
11.2.1 产业特征主题 197
11.2.2 自然事件主题 199
11.2.4 通过抽象和元数据关联 200
11.2.3 通过主题和主题词关联 200
11.3 两层数据仓库 201
11.3.1 非结构化数据仓库分类 202
11.3.2 非结构化数据仓库中的文档 203
11.3.3 非结构化数据可视化 203
11.4 自组织图(SOM) 204
11.4.1 非结构化数据仓库 205
11.4.2 数据量和非结构化数据仓库 205
11.5 适用于两个环境 206
11.6 小结 207
第12章 大型数据仓库 208
12.1 快速增长的原因 208
12.2 庞大数据量的影响 209
12.2.1 基本数据管理活动 209
12.2.2 存储费用 210
12.2.3 实际存储费用 210
12.2.4 大型数据量中的数据使用模式 211
12.2.5 一个简单计算 211
12.2.7 数据分类涉及的问题 212
12.2.6 两类数据 212
12.3.1 近线存储 213
12.3 数据在不同介质的存储 213
12.3.2 访问速度和磁盘存储 214
12.3.3 存档存储 215
12.3.4 透明的意义 216
12.4 环境间数据转移 216
12.4.1 CMSM方法 217
12.4.2 数据仓库使用监控器 218
12.4.3 不同存储介质下数据仓库的扩展 218
12.7 最大容量 219
12.5 数据仓库转换 219
12.6 总费用 219
12.8 小结 220
第13章 关系模型和多维模型数据库设计基础 222
13.1 关系模型 222
13.2 多维模型 223
13.3 雪花结构 224
13.4 两种模型的区别 224
13.4.2 重建关系型数据 225
13.4.1 区别的起源 225
13.4.3 数据的直接访问和间接访问 226
13.4.4 支持将来未知的需求 227
13.4.5 支持适度变化的需求 227
13.5 独立数据集市 229
13.6 建立独立数据集市 230
13.7 小结 232
14.1.2 关系型的基础 233
14.1.1 数据仓库和数据模型 233
14.1 最终用户的需求和数据仓库 233
第14章 数据仓库高级话题 233
14.1.3 数据仓库和统计处理 234
14.2 数据仓库内的资源竞争 234
14.2.1 探查型数据仓库 235
14.2.2 数据挖掘型数据仓库 236
14.2.3 冻结探查型数据仓库 236
14.2.4 外部数据和探查型数据仓库 237
14.3 同一个处理器处理数据集市和数据仓库 237
14.4 数据的生命周期 238
14.5 测试和数据仓库 239
14.6 追踪数据仓库中的数据流 240
14.6.1 数据仓库中的数据速率 241
14.6.2 “推”和“拉”数据 242
14.7 数据仓库和基于网络的电子商务环境 242
14.7.1 两种环境之间的界面 242
14.7.2 粒度管理器 243
14.7.4 ODS,概要记录以及性能 244
14.7.3 概要记录 244
14.8 财务数据仓库 245
14.9 记录系统 246
14.10 结构体系的概要历史——演化为公司信息工厂 247
14.10.1 CIF的进化 249
14.10.2 障碍 249
14.11 CIF的未来 250
14.11.1 分析 250
14.11.2 ERP/SAP 250
14.11.4 数据量 251
14.11.3 非结构化数据 251
14.12 小结 252
第15章 数据仓库的成本论证和投资回报 254
15.1 应对竞争 254
15.2 宏观上的成本论证 254
15.3 微观上的成本论证 255
15.4 来自遗留环境的信息 256
15.4.4 建立数据仓库 257
15.4.3 成本比较 257
15.4.2 用数据仓库收集信息 257
15.4.1 新信息的成本 257
15.4.5 完整的情况图 258
15.4.6 得到数据的障碍 258
15.5 数据的时间价值 259
15.6 集成的信息 260
15.6.1 历史数据的价值 261
15.6.2 历史数据和客户关系模型 261
15.7 小结 261
16.1 互补的结构 263
第16章 数据仓库和ODS 263
16.1.1 ODS中的升级 264
16.1.2 历史数据与ODS 264
16.1.3 概要记录 264
16.2 不同种类的ODS 265
16.3 数据库设计——一种混合的方式 266
16.4 按比例画图 266
16.6 对ODS处理日进行分片 267
16.7 多个ODS 267
16.5 ODS中的事务集成 267
16.8 ODS和网络环境 268
16.9 ODS的一个例子 268
16.10 小结 269
第17章 企业信息依从准则和数据仓库 270
17.1 两个基本行为 270
17.2 财务依从准则 270
17.2.1 “是什么” 272
17.2.2 “为什么” 273
17.3 审计公司的交流信息 274
17.4 小结 276
18.1 农民 277
18.2 探险者 277
18.3 矿工 277
第18章 最终用户社区 277
18.4 旅行者 278
18.5 整个社区 278
18.6 不同的数据类型 278
18.7 成本论证和ROI分析 278
18.8 小结 279
19.1 何时进行设计复查 280
第19章 数据仓库设计的复查要目 280
19.2 谁负责设计复查 281
19.3 有哪些议事日程 281
19.4 结果 281
19.5 复查管理 281
19.6 典型的数据仓库设计复查 282
19.7 小结 295
术语表 296
参考文献 305