第1章 对数据仓库的迫切需求 1
本章目标 1
1.1 对战略信息的不断增长的需求 2
1.1.1 信息危机 4
1.1.2 技术趋势 5
1.1 机遇和风险 6
1.2 以往的决策支持系统的失败 8
1.2.1 决策支持系统的历史 9
1.2.2 缺乏提供战略信息的能力 10
1.3.1 使商业运作起来 11
1.3 操作型系统和决策支持系统 11
1.3.3 不同的范围,不同的目 12
1.3.2 监视商业的运作 12
1.4.1 一种新类型的系统环境 13
1.4 数据仓库——惟一可行的解决方案 13
1.4.3 数据仓库的商业智能 14
1.4.2 新环境下的需求处理 14
1.5.1 数据仓库是信息传递的一种简单概念 15
1.5 数据仓库的定义 15
1.5.3 数据仓库是多种技术的混合体 16
1.5.2 数据仓库是种环境,而不是产品 16
本章小结 17
练习题 18
复习思考题 18
本章目标 20
第2章 数据仓库的组成部分 20
2.1.1 面向主题的数据 21
2.1 定义的特点 21
2.1.2 综合的数据 22
2.1.4 数据的非易变性 24
2.1.3 数据的时间特性 24
2.1.5 数据粒度 26
2.2.1 它们有什么不同 27
2.2 数据仓库和数据集市 27
2.2.2 自上而下和自下而上的方法 28
2.2.3 一个实用的方法 29
2.3 数据仓库的组成部分 30
2.3.1 源数据部分 31
2.3.2 数据准备部分 34
2.3.4 信息传递部分 37
2.3.3 数据存储部分 37
2.3.5 元数据部分 38
2.4.1 元数据的类型 39
2.4 数据仓库中的元数据 39
2.3.6 管理和控制部分 39
2.4.2 元数据的特殊意义 40
复习思考题 41
本章小结 41
练习题 42
本章目标 43
第3章 数据仓库的发展趋势 43
3.1.1 数据仓库正在成为主流 44
3.1 数据仓库的持续成长 44
3.1.2 数据仓库的扩张 45
3.1.3 解决方案和产品 46
3.2.1 多种数据类型 48
3.2 重要趋势 48
3.2.2 数据可视化 51
3.2.3 并行处理 53
3.2.5 浏览工具 55
3.2.4 查询工具 55
3.2.7 多维分析 56
3.2.6 数据融合 56
3.2.9 企业组合数据 57
3.2.8 代理技术 57
3.2.10 数据仓库和ERP 58
3.2.11 数据仓库和知识管理 59
3.2.12 数据仓库和CRM 60
3.3 标准的出现 62
3.2.13 活跃的数据仓库 62
3.3.1 元数据 63
3.3.2 OLAP 64
3.4.1 将数据仓库放入Web中 65
3.4 支持Web的数据仓库 65
3.4.2 将Web技术引入数据仓库 66
3.4.3 支持Web技术的配置 67
复习思考题 68
本章小结 68
练习题 69
本章目标 70
第4章 规划和项目管理 70
4.1.1 关键问题 71
4.1 规划你的数据仓库 71
4.1.2 商业需求,而非技术 74
4.1.4 数据仓库的可行性分析 75
4.1.3 高层管理的支持 75
4.2 数据仓库项目 77
4.1.5 全盘计划 77
4.2.1 有什么不同 78
4.2.2 准备情况的评估 79
4.2.3 生命周期方法 80
4.2.4 开发的各阶段 82
4.3.1 组织项目团队 83
4.3 项目团队 83
4.3.2 角色和责任 84
4.3.3 技能和经验水平 87
4.3.4 用户参与 88
4.4 项目管理要素 89
4.4.1 项目管理的指导原则 90
4.4.2 警告征兆 91
4.4.3 成功的因素 92
4.4.4 成功项目细审 93
4.4.5 采用实用的方法 94
本章小结 95
练习题 96
复习思考题 96
5.1 维度分析 98
本章目标 98
第5章 定义商业需求 98
5.1.2 商业数据的维度 99
5.1.1 对不可预知的信息的使用 99
5.1.3 商业维度的例子 101
5.2.1 不完全确定的需求 102
5.2 信息包——一个新概念 102
5.2.3 维度层次和分类 104
5.2.2 商业维度 104
5.2.5 关键商业指标或事实 106
5.3 收集需求的方法 108
5.3.1 采访技巧 109
5.3.2 调整联合应用程序设计方法 111
5.3.3 回顾已有的文档 113
5.4 需求定义:范围和内容 114
5.4.2 数据转换 115
5.4.1 数据源 115
5.4.6 需求定义文档提纲 116
5.4.5 信息包表 116
5.4.3 数据存储 116
5.4.4 信息传递 116
复习思考题 117
本章小结 117
练习题 118
本章目标 120
第6章 需求——数据仓库的驱动力 120
6.1 数据设计 121
6.1.1 商业维度的结构 123
6.1.3 细节层次 124
6.1.2 关键衡量指标的结构 124
6.2 体系结构规划 125
6.2.1 组成部分的构成 126
6.2.2 特殊因素 127
6.2.3 工具和产品 130
6.3 数据存储规范 132
6.3.1 数据库管理系统的选择 133
6.3.2 存储规模估计 134
6.4 信息传递策略 135
6.4.1 查询和报表 136
6.4.4 决策支持应用程序 137
6.4.3 信息分发 137
6.4.2 分析的类型 137
复习思考题 138
本章小结 138
6.4.5 发展和扩大 138
练习题 139
7.1.1 体系结构:定义 141
7.1 掌握数据仓库的体系结构 141
第7章 体系结构及其组成部分 141
本章目标 141
7.1.2 三个要区域的体系结构 142
7.2 区别其他结构的特点 143
7.2.1 不同目标和范围 144
7.2.3 复杂分析和快速响应 145
7.2.2 数据内容 145
7.2.5 元数据驱动 146
7.2.4 灵活性和动态性 146
7.3.1 支持数据流的体系结构 147
7.3 体系结构框架 147
7.3.2 管理和控制模块 148
7.4 技术体系结构 149
7.4.1 数据获取 151
7.4.2 数据存储 154
7.4.3 信息传递 156
本章小结 158
练习题 159
复习思考题 159
8.1 支持体系结构的基础构造 161
本章目标 161
第8章 数据仓库的基础构造 161
8.1.2 物理基础构造 163
8.1.1 操作型基础构造 163
8.2 硬件和操作系统 165
8.2.1 平台选择 166
8.2.2 服务器硬件 178
8.3 数据库软件 183
8.3.1 并行处理方案 184
8.3.2 数据库管理系统的选择 186
8.4 工具收集 187
8.4.1 先设计好体系结构,再选择工具 188
8.4.4 数据转换 189
8.4.3 数据抽取 189
8.4.2 数据建模 189
8.4.8 联机分析处理(OLAP) 190
8.4.7 查询和报表 190
8.4.5 数据装载 190
8.4.6 数据质量 190
本章小结 191
8.4.11 数据仓库管理 191
8.4.9 预警系统 191
8.4.10 中间件及连接部件 191
练习题 192
复习思考题 192
9.1 元数据的重要性 194
本章目标 194
第9章 元数据的重要角色 194
9.1.1 数据仓库的关键需求 196
9.1.2 为什么元数据对最终用户很关键 200
9.1.3 为什么元数据对IT人员很关键 201
9.1.4 数据仓库任务自动化 203
9.1.5 建立信息上下文 205
9.2 按功能区域划分的元数据类型 206
9.2.1 数据获取 207
9.2.2 数据存储 208
9.2.3 信息传递 210
9.3.1 内容总揽 211
9.3 商业元数据 211
9.3.2 商业元数据举例 212
9.3.4 谁会受益 213
9.3.3 内容重点 213
9.4.2 技术元数据举例 214
9.4.1 内容总揽 214
9.4 技术元数据 214
9.4.4 谁会受益 216
9.4.3 内容重点 216
9.5 如何提供元数据 217
9.5.1 元数据需求 218
9.5.2 元数据的来源 219
9.5.3 元数据管理面临的挑战 221
9.5.4 元数据储存库 222
9.5.6 实施选项 224
9.5.5 元数据集成与标准 224
本章小结 226
练习题 227
复习思考题 227
10.1 从需求到数据设计 229
本章目标 229
第10章 维度建模的原则 229
10.1.2 维度建模基础 230
10.1.1 设计决策 230
10.1.3 E-R建模与维度建模的对比 235
10.1.4 使用CASE工具 236
10.2.1 一个简单简的星型模式的回顾 237
10.2 星型模式 237
10.2.2 维度表的内容 240
10.2.3 事实表的内容 242
10.2.4 不含事实的事实表 244
10.2.5 数据粒度 245
10.3.1 主键 246
10.3 星型模式的键 246
10.3.2 替代键 247
10.4 星型模式的优势 248
10.3.3 外键 248
10.4.1 用户容易理解 249
10.4.2 优化浏览 250
10.4.3 最适于查询处理 251
本章小结 252
10.4.4 星型连接和星型索引 252
练习题 253
复习思考题 253
本章目标 255
第11章 维度建模:高级专题 255
11.1 维度表的更新 256
11.1.1 慢速变化中的维度 256
11.1.2 第1类修改:改正错误 257
11.1.3 第2类修改:保存历史数据 259
11.1.4 第3类修改:暂时的(软性的)修改 260
11.2 各式各样的维度 262
11.2.1 大维度 263
11.2.2 快速变化中的维度 264
11.2.3 废弃维度 266
11.3 雪花型模式 267
11.3.1 规范化选项 268
11.3.2 优势与劣势 269
11.3.3 什么时候使用雪花型模式 270
11.4 聚集事实表 271
11.4.1 事实表的大小 273
11.4.3 对事实表进行聚集 275
11.4.2 对聚集的需求 275
11.4.4 聚集的选项 281
11.5 星型模式族 283
11.5.1 快照表和事务表 284
11.5.2 核心表和定制表 285
11.5.3 支持企业价值链或者价值环 286
11.5.4 使维度一致 287
11.5.5 将事实表标准化 288
11.5.6 星型模式族小结 289
复习思考题 290
本章小结 290
练习题 291
本章目标 292
第12章 数据抽取、转换和装载 292
12.1 ETL概览 293
12.1.1 最重要和最具有挑战性 294
12.1.2 耗时而且费劲 295
12.1.3 ETL的需求和步骤 296
12.1.4 关键因素 297
12.2 数据抽取 298
12.2.1 数据源确认 299
12.2.2 数据抽取技术 300
12.2.3 技术的评估 307
12.3 数据转换 309
12.3.1 数据转换:基本任务 310
12.3.2 主要转换类型 311
12.3.4 数据整合和合并 313
12.3.5 维度属性的转换 315
12.3.6 如何实施转换 316
12.4 数据装载 318
12.4.1 应用数据:技术和过程 319
12.4.2 数据的刷新和更新 322
12.4.3 维度表的规程 323
12.4.4 事实表:历史与增量的装载 324
12.5 ETL总结 325
12.5.1 ETL工具选项 326
12.5.2 再次强调ETL中的元数据(Metadata) 327
12.5.3 ETL的总结和方法 328
本章小结 329
练习题 330
复习思考题 330
本章目标 332
第13章 数据质量:成功的关键 332
13.1 为什么数据质量如此重要 333
13.1.1 什么是数据质量 334
13.1.2 提高数据质量的好处 337
13.1.3 数据质量问题的类型 338
13.2 数据质量的挑战 341
13.2.1 数据污染的来源 342
13.2.2 姓名和地址的行效性 344
13.2.3 数据质量低劣带来的代价 345
13.3.2 错误发现特性 346
13.3.1 数据清洗工具的分类 346
13.3 数据质量工具 346
13.3.4 数据库管理系统的质量控制 347
13.3.3 数据修正特性 347
13.4 确保数据质量的第一步 348
13.4.1 数据清洗的决策 349
13.4.2 谁应该负责 352
13.4.3 净化过程 353
13.4.4 对数据质量的实用建议 355
复习思考题 356
本章小结 356
练习题 357
本章目标 359
第14章 信息和用户类型之间的匹配 359
14.1.1 数据仓库和操作型系统 360
14.1 来自于数据仓库的信息 360
14.1.2 信息潜力 362
14.1.3 用户—信息接口 366
14.2 谁将使用这些信息 368
14.1.4 行业应用 368
14.2.1 用户的种类 369
14.2.2 他们需要什么 372
14.2.3 怎样为用户提供信息 376
14.3 信息传递机制 377
14.3.1 查询 379
14.3.2 报表 381
14.3.3 分析 382
14.4.4 应用程序 383
14.5.1 桌面电脑环境 384
14.5 信息传递工具 384
14.5.2 工具选择的方法学 385
14.5.3 选择工具的标准 389
14.5.4 信息传递框架 390
本章小结 391
复习思考题 392
练习题 393
本章目标 394
第15章 数据仓库中的联机分析处理(OLAP) 394
15.1.1 对多维分析的需要 395
15.1 联机分析处理的要求 395
15.1.2 快速的访问和强大的计算能力 397
15.1.3 其他分析方法的局限性 399
15.1.4 联机分析处理(OLAP)是用户需要的答案 401
15.1.5 OLAP的定义和规则 403
15.1.6 OLAP的特征 405
15.2.1 一般特征 406
15.2 主要的特征和功能 406
15.2.2 维度分析 407
15.2.3 什么是超立方体 411
15.2.4 下钻和概括化的操作 416
15.2.5 多层次/多视角查看或旋转的操作 418
15.3 OLAP模型 419
15.2.6 OLAP的使用和好处 419
15.3.1 变种的概述 420
15.3.2 MOLAP模型 421
15.3.3 ROLAP模型 422
15.3.4 ROLAP 与 MOLAP 423
15.4 OLAP实施的考虑事项 424
15.4.1 数据设计和准备 425
15.4.2 管理和性能 428
15.4.3 OLAP平台 429
15.4.4 OLAP工具和产品 430
15.4.5 实施步骤 431
复习思考题 432
本章小结 432
练习题 433
本章目标 434
第16章 数据仓库和Web 434
16.1 支持Web的数据仓库 435
16.1.1 为什么是Web 436
16.1.2 技术的结合 438
16.1.3 调整数据仓库以支持Web 439
16.1.4 作为数据源的Web 440
16.2 基于Web的信息传递机制 441
16.2.1 扩展的数据仓库的使用 442
16.2.2 新的信息策略 444
16.2.3 数据仓库的浏览器技术 447
16.2.4 安全问题 449
16.3.1 企业OLAP 450
16.3 OLAP和Web 450
16.3.3 OLAP引擎的设计 451
16.3.2 Web-OLAP方法 451
16.4 建立支持Web的数据仓库 452
16.4.1 数据网络仓库的性质 453
16.4.2 对如何实现数据网络仓库的考虑 455
16.4.3 将组件放在一起 456
16.4.4 Web处理模型 457
本章小结 458
练习题 459
复习思考题 459
本章目标 461
第17章 数据挖掘基础 461
17.1 数据挖掘是什么 462
17.1.1 定义数据挖掘 463
17.1.2 知识发现过程 465
17.1.3 OLAP和数据挖掘 468
17.1.4 数据挖掘和数据仓库 470
17.2 主要的数据挖掘技术 472
17.2.1 聚簇检测(clusterdetection) 473
17.2.2 决策树 476
17.2.3 基于记忆的推理 478
17.2.4 关联分析 479
17.2.5 神经网络 482
17.2.6 遗传算法 484
17.2.7 进入数据挖掘 486
17.3 数据挖掘的应用 489
17.3.1 数据挖掘的收益 490
17.3.2 在零售业的应用 491
17.3.3 在电信行业中的应用 492
本章小结 493
17.3.4 在银行和金融业的应用 493
练习题 494
复习思考题 494
本章目标 496
第18章 物理设计过程 496
18.1.1 建立标准 497
18.1 物理设计步骤 497
18.1.3 确定数揣分区方案 498
18.1.2 建立聚集计划 498
18.1.5 准备索引策略 499
18.1.4 建立聚簇选项 499
18.2 物理设计考虑的因素 500
18.1.7 完成物理建模 500
18.1.6 安排存储结构 500
18.2.1 物理设计目标 501
18.2.2 从逻辑模型到物理模型 502
18.2.3 物理模型的组成 503
18.2.4 标准的意义 505
18.3 物理存储 507
18.3.2 优化存储 508
18.3.1 存储区数据结构 508
18.3.3 使用RAID技术 511
18.3.4 估计存储容量 512
18.4 为数据仓库建立索引 513
18.4.1 索引一览 513
18.4.2 B-Tree索引 515
18.4.3 位图索引 516
18.4.4 簇索引 518
18.4.5 为事实表建立索引 518
18.4.6 为维度表建立索引 519
18.5 提高性能的技术 519
18.5.1 数据分区 520
18.5.2 数据聚簇 521
18.5.3 并行查询 521
18.5.4 汇总级别 522
18.5.5 参考完整性检查 522
18.5.6 初始化参数 522
18.5.7 数据阵列 523
本章小结 523
复习思考题 524
练习题 524
第19章 数据仓库部署 526
本章目标 526
19.1 部署的主要任务 527
19.1.1 完成用户认可 527
19.1.2 执行初始装载 528
19.1.3 准备好用户桌面 530
19.1.4 完成初始用户培训 530
19.1.5 建立最初户支持 531
19.1.6 按阶段部署 532
19.2 领航系统 533
19.2.1 领航数据集市什么时候用 534
19.2.2 领航系统的类型 535
19.2.3 选择领航系统 537
19.2.4 扩展和集成领航系统 539
19.3 安全 539
19.3.1 安全政策 540
19.3.2 管理用户权限 541
19.3.3 密码 542
19.3.4 安全工具 542
19.4 备份和恢复 543
19.4.1 为什么备份数据仓备库 543
19.4.2 备份策略 544
19.4.3 建立一个实际的日程表 545
19.4.4 恢复 546
本章小结 547
复习思考题 548
练习题 548
第20章 升级和维护 550
本章目标 550
20.1 监视数据仓库 551
20.1.1 统计数据收集 552
20.1.2 为升级划使统计数据 553
20.1.3 为优化使用统计数据 554
20.1.4 向用户公布趋势 554
20.2 用户培训和支持 555
20.2.1 用户培训内容 555
20.2.2 准备培训计划 557
20.2.3 执行培训计划 558
20.2.4 用户支持 559
20.3 管理数据仓库 561
20.3.1 平台升级 561
20.3.2 数据增长管理 562
20.3.3 存储管理 562
20.3.4 ETL管理 563
20.3.5 数据模型修订 564
20.3.6 信息传递增强 564
20.3.7 持续的优化 565
本章小结 565
复习思考题 566
练习题 566
附录A 项目生存期步骤和列表 567
附录B 成功的关键因素 571
附录C 评估供应商解决方案的指南 572