第1章 数据仓库与数据挖掘概述 1
1.1数据仓库的产生与发展 1
1.1.1数据仓库的产生 1
1.1.2数据仓库的发展 2
1.1.3数据仓库的研究与开发现状 2
1.1.4数据仓库的作用 4
1.2数据仓库的基本概念 4
1.2.1数据仓库的定义与基本特性 5
1.2.2数据仓库与数据库的区别 6
1.2.3数据仓库数据的组织架构 7
1.3数据仓库的体系结构 8
1.3.1虚拟的数据仓库体系结构 9
1.3.2单独的数据仓库体系结构 9
1.3.3单独的数据集市体系结构 10
1.3.4分布式数据仓库结构 10
1.4数据仓库的相关概念 11
1.4.1数据源 11
1.4.2数据的存储层 12
1.4.3 OLAP服务器 14
1.4.4前端工具 14
1.5数据挖掘技术概述 15
1.5.1数据挖掘技术产生的背景 15
1.5.2数据挖掘的基本概念 16
1.5.3数据挖掘的对象 17
1.5.4数据挖掘功能 18
1.5.5数据挖掘与传统分析方法的区别 21
1.5.6数据仓库与数据挖掘的关系 21
1.5.7数据挖掘的发展趋势 22
1.6数据挖掘过程 23
1.6.1 Fayyad过程模型 23
1.6.2 CRISP-DM过程模型 25
1.6.3其他数据挖掘过程模型 26
1.7常用的数据挖掘技术 27
1.8小结 29
1.9习题 29
第2章 数据仓库开发模型 31
2.1数据仓库开发模型概述 31
2.2数据仓库的概念模型 32
2.2.1企业模型的建立 32
2.2.2规范的数据模型 34
2.2.3常见的概念模型 38
2.3数据仓库的逻辑模型 42
2.3.1事实表模型设计 43
2.3.2维度表模型设计 44
2.4数据仓库的物理模型 46
2.4.1物理模型的设计要点 46
2.4.2数据仓库物理模型的存储结构 47
2.4.3数据仓库物理模型的索引构建 49
2.4.4数据仓库物理模型的优化问题 49
2.5数据仓库的元数据模型 51
2.5.1元数据的类型 51
2.5.2元数据的作用 53
2.5.3元数据的收集与维护 54
2.5.4元数据的使用 57
2.5.5元数据管理模型 57
2.6数据仓库的粒度和聚集模型 59
2.6.1数据仓库粒度模型 59
2.6.2数据仓库聚集模型与数据分割 60
2.7小结 61
2.8习题 61
第3章ETL技术 63
3.1 ETL相关概念 64
3.1.1数据理解 64
3.1.2数据抽取 64
3.1.3数据清洗 65
3.1.4数据转换 65
3.1.5数据加载 66
3.2 ETL过程建模 66
3.2.1 ETL系统面临的挑战 66
3.2.2 ETL过程描述 67
3.2.3 ETL概念模型 67
3.2.4 ETL逻辑模型 68
3.3 ETL增量抽取机制 69
3.4 ETL过程数据质量控制 71
3.4.1数据质量问题分类 71
3.4.2数据质量控制技术 72
3.5 ETL并行处理技术 74
3.6小结 76
3.7习题 76
第4章OLAP技术 78
4.1 OLAP概述 78
4.1.1 OLAP的定义 78
4.1.2数据仓库与数据分析的关系 79
4.1.3多维分析的基本概念 80
4.1.4 OLAP的多维数据分析 83
4.1.5 OLAP与OLTP的比较 85
4.2多维数据库及其存储 86
4.2.1多维数据库 86
4.2.2多维数据库的数据存储 88
4.2.3多维数据库与数据仓库 88
4.3 OLAP的类型 89
4.3.1多维OLAP 90
4.3.2关系OLAP 91
4.3.3混合型OLAP 96
4.3.4 MOLAP与ROLAP的比较 96
4.4 OLAP的体系结构 97
4.5 OLAP中的索引技术 98
4.5.1 B-Tree索引 98
4.5.2位图索引 99
4.5.3位图索引的扩展——标识符索引 102
4.5.4索引性能比较 103
4.5.5索引的选择 104
4.6 OLAP的评价标准 104
4.6.1 OLAP的衡量标准 104
4.6.2 OLAP服务器和工具的评价标准 106
4.7 OLAP的前端展现 108
4.7.1 OLAP工具 108
4.7.2 OLAP结果的展现方法 109
4.8小结 111
4.9习题 111
第5章 商务智能系统 113
5.1商务智能概述 113
5.1.1商务智能的概念 113
5.1.2商务智能的发展历程 114
5.1.3商务智能的商业效益 114
5.2商务智能系统架构 115
5.2.1商务智能系统的核心技术 115
5.2.1商务智能的体系结构 116
5.3商务智能系统的功能 117
5.4商务智能系统的应用 118
5.4.1商务智能系统特点 118
5.4.2我国商务智能系统应用现状分析 118
5.5小结 119
5.6习题 120
第6章 数据预处理技术 121
6.1数据预处理概述 121
6.1.1数据预处理的必要性 121
6.1.2数据预处理的基本方法 122
6.1.3数据预处理的研究现状 124
6.2数据清理 124
6.2.1填充缺失值 125
6.2.2光滑噪声数据 125
6.2.3数据清理过程 126
6.3数据集成 127
6.4数据变换 128
6.5数据归约 130
6.5.1数据立方体聚集 130
6.5.2属性子集选择 130
6.5.3维度归约 131
6.5.4数值归约 132
6.5.5数据离散化与概念分层 134
6.6小结 136
6.7习题 136
第7章 数据挖掘技术 138
7.1概念描述 138
7.1.1概念描述的生成过程 138
7.1.2概念分层与数据泛化 139
7.1.3概念分层方法 139
7.1.4数据泛化方法 142
7.1.5泛化的表示 145
7.1.6属性相关分析 146
7.1.7区别性描述 146
7.2关联规则 147
7.2.1关联规则相关概念 147
7.2.2关联规则挖掘步骤 148
7.2.3关联规则分类 149
7.2.4关联规则的算法 150
7.3数据分类 156
7.3.1数据分类的基本步骤与评价准则 156
7.3.2决策树 158
7.3.3贝叶斯分类 164
7.3.4神经网络方法 165
7.3.5近邻分类方法 171
7.4数据聚类 173
7.4.1聚类分析概述 173
7.4.2聚类算法的分类及其典型算法 174
7.4.3聚类分析中的相似度度量方法 176
7.4.4聚类分析中的聚类准则函数 177
7.4.5 k-means聚类算法 178
7.5遗传算法 181
7.5.1遗传算法的基本术语 181
7.5.2遗传算法的执行过程 182
7.5.3遗传算法应用举例 184
7.5.4遗传算法的基本要素 185
7.5.5遗传算法的特点及应用领域 188
7.6粗糙集 190
7.6.1粗糙集理论的相关概念 190
7.6.2粗糙集的应用举例 191
7.6.3粗糙集理论研究的对象及特点 192
7.7小结 193
7.8习题 194
第8章 数据仓库开发实例 196
8.1 SQL Server 2005所提供的数据仓库功能 196
8.1.1 SQL Server 2005 Integration Services 197
8.1.2 SQL Server 2005 Analysis Services 197
8.1.3 SQL Server 2005 DW工具 197
8.2福马特商店销售分析数据仓库系统的分析与设计 198
8.3数据仓库的实现 199
8.3.1 SQL Server的数据仓库创建 199
8.3.2 OLAP的实施 204
8.3.3数据仓库中的数据挖掘 209
8.4数据仓库的应用与管理 213
8.4.1数据仓库的用户 213
8.4.2数据仓库应用案例 213
8.4.3数据仓库的运行技术管理 224
8.4.4数据仓库应用中的法律问题 227
8.4.5数据仓库的成本与效益分析 227
8.5小结 228
8.6习题 228
第9章 报表设计 230
9.1报表概述 230
9.1.1报表结构 230
9.1.2传递报表 232
9.1.3 Report Server功能结构 233
9.1.4 Report Services的组成部分 234
9.2报表向导制作报表 236
9.2.1向导制作报表 237
9.2.2报表设计器 246
9.2.3部署报表 247
9.3编辑制作报表 248
9.3.1新建报表项目 248
9.3.2新建数据集 248
9.3.3报表格式设计 250
9.3.4分组 251
9.3.5钻取功能 254
9.3.6文档结构图 254
9.4矩阵式报表 255
9.4.1数据集建立 256
9.4.2矩阵布局 257
9.4.3矩形布局 258
9.4.4折叠结构 259
9.5统计图表 260
9.5.1图表元素 260
9.5.2柱形图 260
9.5.3折线图 266
9.5.4饼图 270
9.5.5圆环图 270
9.6主体的多列 271
9.7小结 272
9.8实验 272
参考文献 273