第1章 概述 1
1.1 数据库与决策支持技术的发展 1
1.1.1 数据库技术的发展 1
1.1.2 决策支持技术的发展 2
1.2 数据仓库技术的发展 3
1.2.1 数据仓库概念的提出 3
1.2.2 数据仓库的发展 5
1.2.3 数据仓库技术的兴起 6
1.2.4 数据仓库的动态 7
1.3 数据挖掘技术的发展 9
1.3.1 数据挖掘研究和应用面临的挑战 9
1.3.2 数据仓库与数据挖掘的关系 10
1.4 数据仓库未来发展方向 11
第2章 数据仓库原理 15
2.1 数据仓库的概念 15
2.1.1 数据仓库的定义 15
2.1.2 数据仓库的特征 16
2.1.3 数据集市 18
2.2 数据仓库的技术要求 19
2.3 数据仓库的结构 21
2.3.1 数据仓库的自顶向下结构 21
2.3.2 数据仓库的自底向上结构 22
2.3.3 企业级数据集市结构 23
2.3.4 数据存储/数据集市结构 24
2.3.5 分布式数据仓库/数据集市结构 25
2.3.6 分布式知识管理结构 25
2.3.7 数据仓库系统的结构 26
2.3.8 数据仓库的数据组织 28
2.4 元数据 31
2.4.1 元数据的由来 31
2.4.2 元数据的定义 32
2.4.3 元数据的主要作用 33
2.4.4 元数据的分类 34
2.4.5 元数据的标准化 37
2.4.6 OIM简介 40
第3章 数据仓库的设计 46
3.1 数据仓库的方法论 46
3.2 数据仓库规划 48
3.3 数据仓库体系结构 49
3.4 数据仓库的技术体系结构 50
3.5 数据仓库的数据组织 54
3.5.1 维表和事实表构成的关系型数据仓库 55
3.5.2 多维数据库数据组织 57
3.5.3 两种数据组织的等价性 58
3.5.4 虚拟数据仓库 59
3.6 数据仓库的粒度 60
3.6.1 粒度确定 60
3.6.2 粒度划分示例 62
3.7 数据仓库开发 63
3.7.1 定义体系结构 64
3.7.2 决策者的需求 65
3.7.3 主题区分析 65
3.7.4 源系统分析 66
3.7.5 变换设计 66
3.7.6 物理数据库设计 67
3.7.7 最终用户访问方法的设计、定义和开发 67
3.7.8 数据仓库开发 68
3.7.9 数据仓库填充和实施 69
3.7.10 数据库的开发流程 69
3.8 数据仓库解决方案 70
3.8.1 Sybase提供的数据仓库解决方案 70
3.8.2 SAS提供的数据仓库解决方案 70
3.8.3 Platinum提供的数据仓库解决方案 72
3.8.4 其他解决方案 74
第4章 数据仓库管理技术 75
4.1 数据仓库管理的基本问题 75
4.2 数据仓库中的多维建模技术 76
4.2.1 多维模型的两种结构 77
4.2.2 多维建模在决策支持系统中的应用 79
4.2.3 多维建模面临的挑战 81
4.3 休眠数据管理 82
4.3.1 问题的提出 82
4.3.2 休眠数据对数据仓库的影响 83
4.3.3 解决方案 83
4.4 元数据的管理 87
4.4.1 早期的数据管理:从内部管理到数据字典 87
4.4.2 企业级中心知识库的管理方法 87
4.4.3 传统的元数据管理方法 89
4.4.4 元数据的数据仓库管理功能 90
4.4.5 数据仓库研究项目和元数据管理介绍 94
4.4.6 评估元数据的价值 97
4.4.7 管理元数据 98
4.5 数据仓库管理工具 98
第5章 联机分析处理 101
5.1 概述 101
5.1.1 OLAP的出现 101
5.1.2 OLAP的定义 102
5.1.3 OLAP的结构 103
5.1.4 OLAP的一些基本概念 105
5.1.5 OLAP的基本分析操作 106
5.1.6 OLAP与OLTP的比较 109
5.2 多维OLAP与关系OLAP 111
5.2.1 多维数据存储与关系数据存储 111
5.2.2 OLAP服务器 112
5.2.3 MOLAP 112
5.2.4 ROLAP 113
5.3 OLAP技术分析 118
5.3.1 结构分析 118
5.3.2 数据存储和管理 119
5.3.3 数据存取 119
5.3.4 多维模型的实现技术 120
5.3.5 OLAP的12条准则 122
5.3.6 OLAP服务器和工具的评价 125
5.4 实用OLAP技术简介 127
5.4.1 Oracle OLAP工具 127
5.4.2 Oracle Express Server技术特色 128
5.4.3 Informix OLAP工具 134
第6章 数据挖掘技术 140
6.1 数据挖掘概念、方法与任务 140
6.1.1 基本概念 140
6.1.2 数据挖掘的任务与分类 142
6.1.3 数据挖掘的方法和技术 144
6.1.4 数据挖掘的现状与应用 147
6.2 关联规则的发现 153
6.2.1 关联规则简介 153
6.2.2 关联规则的基本概念 154
6.2.3 关联规则发现的经典算法 155
6.2.4 基于聚类的周期关联规则发现算法CCAR 159
6.2.5 关联规则价值衡量的方法 162
6.3 公式发现 164
6.3.1 现状 164
6.3.2 问题描述 165
6.3.3 BACON系统 165
6.3.4 FDD系统 168
6.3.5 Explore系统 168
6.4 数据聚类 172
6.4.1 聚类的概念 172
6.4.2 SAS的聚类算法 173
6.4.3 基于遗传算法的聚类方法 175
6.4.4 基于随机搜索的聚类算法 176
6.4.5 聚类算法BIRCH 177
第7章 数据挖掘算法 182
7.1 数据挖掘的集合论方法 182
7.1.1 粗集方法 182
7.1.2 概念树方法 186
7.1.3 覆盖正例排斥反例方法 188
7.2 数据挖掘中的决策树方法 188
7.2.1 基本原理 188
7.2.2 ID3决策树方法 190
7.2.3 IBLE决策规则树方法 194
7.2.4 决策树方法的优点和发展 199
7.3 数据挖掘中的遗传算法 200
7.3.1 遗传算法的形成和发展 200
7.3.2 遗传算法的基本原理 200
7.3.3 遗传算法的研究方向 204
7.3.4 基于遗传算法的分类系统 205
7.3.5 基于混合数据的遗传分类算法 206
7.4 数据挖掘的神经网络方法 208
7.4.1 神经网络的理论基础 208
7.4.2 几个常见神经网络 211
7.4.3 非线性神经网络的原理及其学习算法 218
第8章 数据仓库应用 222
8.1 需求分析 222
8.1.1 环境分析 223
8.1.2 业务数据库结构分析 225
8.1.3 数据仓库应用系统的分析主题 226
8.1.4 数据仓库应用系统的具体要求 227
8.2 数据仓库应用系统设计 227
8.2.1 数据仓库应用系统结构 227
8.2.2 数据模型设计 231
8.3 数据转移 240
8.3.1 数据转移方案 240
8.3.2 数据装载 241
8.4 创建多维数据集 242
8.5 小结 243
参考文献 244