1.1 数据仓库的兴起 1
1.1.1 从数据库到数据仓库 1
第1章 数据仓库与数据挖掘概述 1
1.1.2 从OLTP到OLAP 3
1.1.3 数据字典与元数据 4
1.1.4 数据仓库的定义与特点 6
1.2 数据挖掘的兴起 7
1.2.1 从机器学习到数据挖掘 7
1.2.2 数据挖掘的含义 8
1.2.3 数据挖掘与OLAP的比较 8
1.2.4 数据挖掘与统计学 9
1.3.1 数据仓库和数据挖掘的区别与联系 11
1.3 数据仓库和数据挖掘的结合 11
1.3.2 基于数据仓库的决策支持系统 13
1.3.3 数据仓库与商业智能 14
习题 16
第2章 数据仓库原理 17
2.1 数据仓库结构体系 17
2.1.1 数据仓库结构 17
2.1.2 数据集市及其结构 18
2.1.3 数据仓库系统结构 21
2.1.4 数据仓库的运行结构 22
2.2 数据仓库的数据模型 23
2.2.1 星型模型 24
2.2.3 星网模型 25
2.2.2 雪花模型 25
2.2.4 第三范式 26
2.3 数据抽取、转换和装载 27
2.3.1 数据抽取 27
2.3.2 数据转换 28
2.3.3 数据装载 30
2.3.4 ETL工具 31
2.4 元数据 32
2.4.1 元数据的重要性 32
2.4.2 关于数据源的元数据 33
2.4.3 关于数据模型的元数据 33
2.4.4 关于数据仓库映射的元数据 35
习题 36
2.4.5 关于数据仓库使用的元数据 36
第3章 联机分析处理 38
3.1 OLAP概念 38
3.1.1 OLAP的定义 38
3.1.2 OLAP准则 39
3.1.3 OLAP的基本概念 42
3.2 OLAP的数据模型 43
3.2.1 MOLAP数据模型 43
3.2.2 ROLAP数据模型 45
3.2.3 MOLAP与ROLAP的比较 45
3.2.4 HOLAP数据模型 48
3.3 多维数据的显示 48
3.3.1 多维数据的显示方法 48
3.3.2 多维类型结构 49
3.3.3 多维数据的分析视图 50
3.4 OLAP的多维数据分析 52
3.4.1 多维数据分析的基本操作 52
3.4.2 广义OLAP功能 54
3.4.3 多维数据分析实例 56
3.5 OLAP结构与分析工具 58
3.5.1 OLAP结构 58
3.5.2 OLAP的Web结构 59
3.5.3 OLAP工具及评价 61
习题 63
第4章 数据仓库设计与开发 65
4.1 数据仓库分析与设计 65
4.1.1 需求分析 65
4.1.2 概念模型设计 67
4.1.3 逻辑模型设计 68
4.1.4 物理模型设计 73
4.1.5 数据仓库的索引技术 75
4.2 数据仓库开发 79
4.2.1 数据仓库开发过程 79
4.2.2 数据质量与数据清洗 85
4.2.3 数据粒度与维度建模 86
4.3 数据仓库技术与开发的困难 88
4.3.1 数据仓库技术 88
4.3.2 数据仓库开发的困难 92
习题 93
5.1 数据仓库管理 95
5.1.1 用户使用数据仓库的管理 95
第5章 数据仓库管理和应用 95
5.1.2 数据管理 98
5.2 数据仓库的决策支持与决策支持系统 103
5.2.1 查询与报表 104
5.2.2 多维分析与原因分析 105
5.2.3 预测未来 106
5.2.4 实时决策 106
5.2.5 自动决策 107
5.2.6 决策支持系统 108
5.3 数据仓库应用实例 109
5.3.1 航空公司数据仓库决策支持系统简例 109
5.3.2 统计业数据仓库系统 114
5.3.3 沃尔玛数据仓库系统 116
习题 118
第6章 数据挖掘原理 120
6.1 知识发现过程 120
6.1.1 知识发现过程定义 120
6.1.2 数据挖掘对象 121
6.1.3 数据挖掘任务 123
6.1.4 数据挖掘分类 125
6.1.5 不完全数据处理 127
6.1.6 数据库的数据浓缩 128
6.2 数据挖掘方法和技术 131
6.2.1 归纳学习的信息论方法 131
6.2.2 归纳学习的集合论方法 131
6.2.3 仿生物技术的神经网络方法 132
6.2.5 数值数据的公式发现 133
6.2.4 仿生物技术的遗传算法 133
6.2.6 可视化技术 134
6.3 数据挖掘的知识表示 134
6.3.1 规则知识 134
6.3.2 决策树知识 135
6.3.3 知识基 135
6.3.4 神经网络的权值 136
6.3.5 公式知识 136
6.3.6 案例 137
习题 137
第7章 信息论方法 139
7.1 信息论原理 139
7.1.1 信道模型和学习信道模型 139
7.1.2 信息熵和条件熵 140
7.1.3 互信息与信息增益 141
7.1.4 信道容量与译码准则 142
7.2 决策树方法 143
7.2.1 决策树概念 143
7.2.2 ID3方法基本思想 144
7.2.3 ID3算法 145
7.2.4 实例与讨论 146
7.2.5 C4.5方法 148
7.3 决策规则树方法 151
7.3.1 IBLE方法的基本思想 151
7.3.2 IBLE算法 153
7.3.3 IBLE方法实例 155
习题 161
第8章 集合论方法 163
8.1 粗糙集方法 163
8.1.1 粗糙集概念 163
8.1.2 属性约简的粗糙集理论 166
8.1.3 属性约简的粗糙集方法 172
8.1.4 粗糙集方法的规则获取 173
8.1.5 粗糙集方法的应用实例 174
8.2 关联规则挖掘 176
8.2.1 关联规则的挖掘原理 177
8.2.2 Apriri算法的基本思想 180
8.2.3 Apriori算法程序 183
8.2.4 基于FP树的关联规则挖掘算法 184
习题 188
第9章 公式发现 189
9.1 公式发现概述 189
9.1.1 曲线拟合与公式发现 189
9.1.2 启发式与数据驱动启发式 191
9.2 科学定律重新发现系统 193
9.2.1 BACON系统基本原理 193
9.2.2 BACON系统实例 194
9.2.3 BACON系统的进展 196
9.3 经验公式发现系统 197
9.3.1 FDD系统基本原理 197
9.3.2 FDD.1系统结构 199
9.3.3 FDD.1系统实例 202
9.3.4 FDD.2系统 204
9.3.5 FDD.3系统 207
习题 211
第10章 神经网络与遗传算法 213
10.1 神经网络概念及几何意义 213
10.1.1 神经网络原理 213
10.1.2 神经网络的几何意义 214
10.1.3 超曲面神经网络概念 216
10.2 感知机 218
10.2.1 感知机模型 218
10.2.2 感知机实例 219
10.2.3 感知机讨论 220
10.3.1 BP网络结构 221
10.3.2 BP网络学习公式推导 221
10.3 反向传播模型 221
10.3.3 实例分析 226
10.4 遗传算法 228
10.4.1 遗传算法基本原理 229
10.4.2 遗传算子 231
10.4.3 遗传算法简例 234
10.4.4 遗传算法的特点 236
10.5 基于遗传算法的分类学习系统 237
10.5.1 概述 237
10.5.2 遗传分类学习系统GCLS的基本原理 238
10.5.3 遗传分类学习系统GCLS的应用 242
习题 243
11.1.1 文本挖掘的基本概念 245
11.1 文本挖掘概述 245
第11章 文本挖掘与Web挖掘 245
11.1.2 文本特征的表示 246
11.1.3 文本特征的提取 247
11.2 文本挖掘 248
11.2.1 文本挖掘功能层次 248
11.2.2 关联分析 248
11.2.3 文本聚类 249
11.2.4 文本分类 250
11.3 Web挖掘 251
11.3.1 Web挖掘概述 251
11.3.2 Web内容挖掘 253
11.3.3 Web结构挖掘 255
11.3.4 Web应用挖掘 258
习题 261
第12章 数据仓库与数据挖掘的发展 262
12.1 综合决策支持系统 262
12.1.1 从管理科学到决策支持系统 262
12.1.2 基于数据仓库的决策支持系统与传统决策支持系统的结合 265
12.1.3 综合决策支持系统发展趋势 268
12.2 可拓数据挖掘 270
12.2.1 可拓学基本原理 270
12.2.2 从数据挖掘到可拓数据挖掘 272
12.2.3 可拓数据挖掘理论 272
12.2.4 可拓数据挖掘实例 274
习题 277
参考文献 278