第1章 数据仓库与数据挖掘概述 1
1.1 从数据库到数据仓库 2
1.1.1 数据库遇到的困境 2
1.1.2 操作型系统和分析型系统的分离 7
1.1.3 数据仓库的产生 9
1.1.4 传统数据库与数据仓库的区别 12
1.2 数据挖掘 13
1.2.1 数据挖掘的产生 13
1.2.2 数据挖掘的发展历程 15
1.2.3 数据挖掘与数据仓库的关系 17
1.3 关联学科和技术介绍 18
1.3.1 统计学 18
1.3.2 人工智能技术与机器学习 19
1.3.3 商业智能 20
1.3.4 OLAP(Online Analytical Process,联机分析处理) 20
1.4 数据仓库产品介绍 21
1.4.1 Business Objects 21
1.4.2 Oracle 22
1.4.3 IBM 22
1.4.4 Sybase 23
1.4.5 Informix 24
1.4.6 NCR 24
1.4.7 SAS 25
1.4.8 CA 25
本章小结 26
本章习题 26
第2章 数据仓库与数据挖掘的应用和发展 27
2.1 金融行业的应用 28
2.1.1 银行 28
2.1.2 证券 30
2.1.3 保险 33
2.2 通信与安全行业的应用 36
2.2.1 电信 36
2.2.2 信息安全 39
2.3 生产制造与零售行业 40
2.3.1 生产制造 41
2.3.2 零售 42
2.4 医疗与生物医学行业 44
2.4.1 医疗 44
2.4.2 生物医学 46
2.5 其他行业 48
2.5.1 公安 48
2.5.2 税务 50
2.5.3 竞技运动 50
2.6 数据仓库与数据挖掘技术的发展趋势 52
2.6.1 数据仓库的发展趋势 52
2.6.2 数据挖掘技术的发展趋势 56
本章小结 61
本章习题 61
第3章 数据仓库的基本原理 62
3.1 数据仓库的体系结构 63
3.1.1 数据仓库体系的三个层次 63
3.1.2 数据仓库体系结构的基本特点 65
3.1.3 数据仓库体系结构的计算模式 66
3.2 数据仓库的基本概念 66
3.2.1 数据仓库中的数据 66
3.2.2 数据仓库处理过程中的关键名词 69
3.2.3 数据集市(Data Mart) 70
3.3 数据仓库的特点 75
3.3.1 面向主题 76
3.3.2 数据的集成性 77
3.3.3 数据的非易失性 77
3.3.4 数据的时变性 78
3.4 数据仓库的数据组织 79
3.4.1 数据仓库的数据组织结构 79
3.4.2 数据的颗粒度 80
3.4.3 数据的分割 82
3.4.4 数据仓库的数据组织形式 83
3.4.5 数据追加技术 83
3.4.6 数据仓库中的数据清理 85
3.5 数据仓库的数据管理 86
3.5.1 元数据的管理 86
3.5.2 外部数据与非结构数据的管理 87
本章小结 89
本章习题 89
第4章 OLAP的基本原理 90
4.1 OLAP的体系结构 91
4.2 OLAP中的基本概念 93
4.2.1 OLAP设计的基本术语 93
4.2.2 OLAP服务管理的基本术语 98
4.2.3 OLAP与数据仓库、OLTP的关系 102
4.3 OLAP的基本特征与功能 104
4.3.1 OLAP的基本特征 104
4.3.2 OLAP的基本功能 105
4.4 OLAP的分类 107
4.4.1 MOLAP 107
4.4.2 ROLAP 109
4.4.3 HOLAP(Hybrid OLAP) 111
4.4.4 MOLAP与ROLAP的比较 111
4.5 OLAP的展现 114
4.5.1 OLAP的展现方式 114
4.5.2 OLAP的展现方法 115
本章小结 117
本章习题 117
第5章 数据挖掘的基本原理 118
5.1 数据挖掘的概念 119
5.1.1 数据挖掘的形式化定义 121
5.1.2 数据挖掘的技术定义 122
5.1.3 数据挖掘的商业定义 123
5.1.4 数据挖掘与OLAP的关系 124
5.2 数据挖掘的体系结构 126
5.3 数据挖掘的基本功能 126
5.3.1 概念描述 127
5.3.2 信息摘要 127
5.3.3 信息抽取 128
5.3.4 元数据挖掘 128
5.4 数据挖掘的对象 128
5.5 数据挖掘的步骤与过程模型 130
5.5.1 数据挖掘的步骤 131
5.5.2 数据挖掘的过程模型 132
5.6 数据挖掘的分类 138
5.6.1 关联分析(Association) 139
5.6.2 聚类分析(Clustering) 140
5.6.3 分类分析(Classification) 141
5.6.4 序列分析及时间序列(Sequence Analysis and Time Sequence) 142
5.6.5 其他分析 143
本章小结 143
本章习题 144
第6章 关联规则分析算法原理与应用 145
6.1 关联规则的典型应用 146
6.2 关联规则挖掘算法的基本原理 148
6.2.1 关联规则算法的基本概念 148
6.2.2 挖掘频繁项集的经典算法——Apriori算法 150
6.2.3 生成关联规则 156
6.2.4 预测 157
6.3 关联规则挖掘算法的使用 158
6.3.1 关联规则算法的参数 158
6.3.2 DMX查询 159
6.3.3 模型内容 161
6.3.4 解释模型 162
6.4 关联规则挖掘的优化算法 162
6.4.1 ApriioriTid算法 162
6.4.2 AprioriHybrid算法 163
6.4.3 基于粗糙集的关联规则算法 164
6.4.4 具有自适应能力的动态递增的关联规则算法 165
6.4.5 关联规则的增量式更新算法 166
6.4.6 多层关联规则发现算法 168
6.4.7 约束性关联规则发现算法 169
本章小结 172
本章习题 172
第7章 聚类分析算法原理与应用 173
7.1 聚类分析的典型应用 174
7.2 聚类算法的基本原理 175
7.2.1 聚类分析的基本概念 177
7.2.2 聚类分析的基本方法 181
7.3 聚类分析算法的使用 184
7.3.1 聚类分析算法的参数 184
7.3.2 聚类模型的使用 186
7.4 聚类分析方法的优化算法 190
7.4.1 聚类分析的基本优化算法 190
7.4.2 面向流数据和孤立点挖掘的新型聚类算法 195
本章小结 199
本章习题 199
第8章 分类分析算法原理与应用 200
8.1 分类分析算法的典型应用 201
8.2 分类分析算法的基本原理 201
8.2.1 分类分析算法的基本概念 202
8.2.2 决策树基本算法介绍 203
8.3 基于信息论(Information Theory)的分类分析算法 206
8.3.1 概念与定义 207
8.3.2 ID3分类算法 208
8.3.3 C4.5分类算法 209
8.4 分类与回归树算法 212
8.4.1 构建决策树 213
8.4.2 决策树修剪(Pruning) 215
8.4.3 决策树评估(Estimate) 218
本章小结 219
本章习题 220
第9章 序列模式分析算法原理与应用 221
9.1 序列模式分析的典型应用 222
9.2 序列模式分析的基本原理 224
9.2.1 序列模式分析的基本概念 224
9.2.2 序列模式的发现步骤 226
9.3 序列模式分析典型算法的使用 228
9.4 序列模式分析的新算法 235
9.4.1 基于Apriori的候选码生成——测试的方法 235
9.4.2 基于垂直格式的候选码生成——测试的方法 236
9.4.3 模式增长方法 238
本章小结 239
本章习题 239
第10章 Microsoft SQL Server 2000数据仓库基本操作 240
10.1 Analysis Manager的配置 241
10.1.1 注册服务器 241
10.1.2 创建数据库 241
10.2 数据源的管理 241
10.2.1 指定ODBC数据源 242
10.2.2 指定SQL Server数据源 244
10.3 多维数据集和维度的创建 245
10.3.1 创建维度 245
10.3.2 创建多维数据集 252
10.4 管理与使用权限的设置 255
10.4.1 系统管理员的安全性控制 255
10.4.2 数据库角色定义与管理 256
10.4.3 多维数据集角色的管理 261
10.5 数据库的存档与恢复 265
10.5.1 数据库的存档 265
10.5.2 数据库的恢复 265
10.6 DTS在数据仓库中的应用 267
10.6.1 DTS概述 267
10.6.2 数据导入/导出工具 267
10.6.3 DTS中的数据转换 271
本章小结 272
本章习题 273
第11章 Microsoft SQL Server 2000 OLAP的基本设计 274
11.1 多维数据集的建立 275
11.1.1 度量值的添加 275
11.1.2 时间维度的建立 275
11.1.3 雪花模型维度的建立 277
11.1.4 星型模型维度的建立 278
11.1.5 父子维度的建立 278
11.1.6 完成多维数据集的创建 279
11.2 多维数据集的编辑与管理 279
11.2.1 维度的编辑 280
11.2.2 多维数据集的编辑 282
11.3 多维数据集的设计存储和处理 284
11.4 多维数据集分析模式的应用 286
11.4.1 直接使用“Analysis Manager”进行数据浏览以及OLAP的实施 286
11.4.2 使用Excel作为前端分析工具 289
11.4.3 使用OLAP的Web动态数据透视 292
本章小结 298
本章习题 298
第12章 Microsoft SQL Server 2000 OLAP的高级设计 299
12.1 计算成员的建立与应用 300
12.1.1 度量值成员的导出与应用 300
12.1.2 维度成员的导出与应用 302
12.2 计算单元的应用 304
12.2.1 建立计算单元 304
12.2.2 编辑计算单元 308
12.3 “对策”的建立与应用 308
12.4 “命名集”的建立与应用 313
12.4.1 建立命名集 313
12.4.2 命名集在MDX中的应用 314
12.5 成员属性与虚拟维度 314
12.5.1 成员属性的建立与应用 315
12.5.2 虚拟维度的建立与应用 316
12.6 多维数据集的分区与合并 318
12.6.1 建立多维数据集分区 319
12.6.2 编辑分区与筛选条件设置 322
12.6.3 分区的合并 323
12.7 虚拟多维数据集的建立与应用 324
12.8 钻取选项的设置 328
12.8.1 钻取的基本概念 328
12.8.2 启用多维数据集的钻取功能 328
12.8.3 给角色提供钻取权限 329
本章小结 331
本章习题 331
第13章 Microsoft SQL Server 2000 MDX技术 332
13.1 MDX概述 333
13.1.1 MDX语句的基本概念和组成元素 333
13.1.2 MDX语句与SQL语句的比较 334
13.2 MDX基础 335
13.2.1 MDX语句的基本结构 335
13.2.2 成员、元组和集合 337
13.2.3 轴维度和切片器维度 341
13.2.4 建立多维数据集上下文 343
13.3 高级MDX 343
13.3.1 指定单元格属性 343
13.3.2 生成MDX中的命名集 349
13.3.3 生成MDX中的计算成员 351
13.3.4 生成MDX中的计算单元 352
13.4 Microsoft SQL Server 2000 MDX示例应用程序的使用 354
13.5 Analysis Services中的MDX函数 356
13.5.1 成员函数 356
13.5.2 集合函数 364
13.5.3 维度函数 372
13.5.4 级别函数 374
13.5.5 数值函数 376
本章小结 381
本章习题 381
第14章 Microsoft SQL Server 2000数据挖掘 382
14.1 Microsoft SQL Server 2000中的数据挖掘模型 383
14.1.1 建立关系数据挖掘模型 383
14.1.2 建立OLAP数据挖掘模型 394
14.1.3 挖掘模型角色管理 401
14.2 Microsoft SQL Server 2005中数据挖掘的改进 402
14.2.1 新增加的算法 403
14.2.2 易于使用的数据挖掘工具 404
14.2.3 简单而强大API 404
14.2.4 与同类BI技术的集成 404
本章小结 405
本章习题 405
第15章 数据仓库系统开发方法、 项目管理及实例分析 407
15.1 螺旋式开发方法 408
15.2 数据仓库项目开发管理 410
15.3 数据仓库开发应避免的问题 414
15.4 数据仓库系统分析与设计实例 417
15.4.1 aCRM系统背景介绍 417
15.4.2 aCRM系统目标和需求分析 418
15.4.3 aCRM系统体系结构设计 423
15.4.4 aCRM系统模型设计 424
本章小结 432
本章习题 433