第1章 数据仓库与数据挖掘概述 1
1.1 数据库与数据仓库 1
1.1.1 数据的层次性 1
1.1.2 数据仓库出现的原因 2
1.1.3 数据仓库的概念 4
1.1.4 数据仓库与数据库的差异 7
1.1.5 数据仓库的商业应用 8
1.2 数据分析与数据挖掘 9
1.2.1 什么是数据挖掘 10
1.2.2 数据挖掘的商业流程 12
1.2.3 数据挖掘的典型应用 14
1.2.4 基于电子商务的数据挖掘技术 17
1.2.5 典型的数据挖掘方法 18
1.3 商务智能 20
思考题 22
第2章 数据仓库分析 23
2.1 数据仓库的生命周期 23
2.1.1 数据仓库规划分析阶段 23
2.1.2 数据仓库设计实施阶段 25
2.1.3 数据仓库使用维护阶段 27
2.1.4 数据仓库开发的特点 27
2.2 数据仓库的基本体系结构 27
2.2.1 外部数据源 28
2.2.2 数据抽取 28
2.2.3 抽取存储区 29
2.2.4 数据清洗 29
2.2.5 数据转换 29
2.2.6 数据集市 30
2.3 数据仓库的构造模式 30
思考题 33
第3章 数据仓库设计 34
3.1 数据仓库中数据模型概述 34
3.2 概念模型设计 35
3.2.1 企业模型的建立 36
3.2.2 数据模型的规范 37
3.2.3 常见的概念模型 38
3.3 逻辑模型设计 43
3.3.1 数据仓库的数据综合 43
3.3.2 数据仓库中的时间分割 44
3.3.3 数据仓库中的数据组织 45
3.3.4 数据仓库的粒度设计 45
3.4 物理模型设计 50
3.4.1 物理模型的设计要点 51
3.4.2 事实表的设计 51
3.4.3 维度表的设计 52
3.4.4 物理模型的设计对数据仓库性能的影响 53
思考题 55
第4章 数据仓库的使用 56
4.1 数据仓库与联机分析处理 56
4.1.1 联机分析处理的基本概念 56
4.1.2 OLAP与OLTP的区别 57
4.1.3 OLAP带来的好处 58
4.1.4 数据仓库与OLAP 59
4.1.5 OLAP多维数据分析 59
4.2 元数据 62
4.2.1 元数据的概念 62
4.2.2 元数据的作用 64
4.2.3 元数据的使用 65
4.3 数据仓库的管理与维护 66
4.3.1 数据管理 66
4.3.2 系统管理 68
4.4 数据仓库的优化 75
4.4.1 索引技术 75
4.4.2 物化视图 77
4.4.3 其他优化手段 79
4.5 主流的数据仓库厂商及产品 80
4.6 基于Analysis Services的数据仓库构建过程 81
4.6.1 数据准备 82
4.6.2 数据仓库的构建过程 84
4.6.3 开展OLAP分析 95
思考题 96
第5章 数据预处理 97
5.1 数据预处理的重要性 97
5.2 数据清洗 99
5.2.1 缺失数据处理 99
5.2.2 噪声数据的处理 100
5.2.3 不一致数据处理 100
5.3 数据集成与转换 101
5.3.1 数据集成 101
5.3.2 数据转换 101
5.4 数据规约 103
5.4.1 数据立方合计 103
5.4.2 维规约 104
5.4.3 数据压缩 105
5.4.4 数据块的消减 106
5.5 离散化和概念层次树生成 107
5.5.1 数据概念层次树生成 108
5.5.2 类别概念层次树生成 110
思考题 111
第6章 数据挖掘基础 112
6.1 数据挖掘的任务 112
6.2 数据挖掘的实施 114
6.2.1 数据挖掘的基本过程 114
6.2.2 数据挖掘的实施难点 115
6.3 知识表示方法 115
6.3.1 产生式知识表示方法 116
6.3.2 产生式系统 117
6.3.3 其他知识表示方法 119
思考题 121
第7章 数据挖掘的主要方法 122
7.1 关联规则挖掘 122
7.1.1 关联规则的定义和属性 122
7.1.2 关联规则的挖掘 124
7.1.3 关联规则的分类 125
7.1.4 关联规则挖掘的相关算法 126
7.1.5 关联分析的实际应用 131
7.2 分类与预测 134
7.2.1 分类问题与预测问题 134
7.2.2 决策树 137
7.2.3 人工神经网络 143
7.2.4 其他分类方法 149
7.2.5 预测 150
7.2.6 分类与预测的实际应用 152
7.3 聚类分析 161
7.3.1 聚类的定义 161
7.3.2 聚类分析中的数据类型与结构 162
7.3.3 层次方法 163
7.3.4 划分方法 164
7.3.5 聚类的实际应用 166
7.4 遗传算法 172
7.4.1 遗传算法的历史和现状 172
7.4.2 遗传算法常用的操作算子及实施步骤 173
7.5 文本挖掘 174
7.5.1 文本挖掘的主要应用 174
7.5.2 文本表示方法 177
7.5.3 中文的分词 178
7.6 Web挖掘与电子商务 180
7.6.1 Web挖掘定义 180
7.6.2 Web挖掘与电子商务 181
7.6.3 Web挖掘的数据来源与类型 183
7.6.4 Web使用模式挖掘 184
思考题 187
第8章 大数据 188
8.1 大数据的由来 188
8.1.1 大数据概念 188
8.1.2 大数据的典型特征 188
8.2 大数据处理的相关技术 189
8.3 大数据的作用 191
8.3.1 数据机遇 192
8.3.2 数据回报 192
8.4 大数据应用案例 193
8.4.1 塔吉特百货孕妇营销分析 193
8.4.2 试衣间的大数据应用 193
8.4.3 路易斯维尔利用大数据治理空气污染问题 194
8.4.4 阿里信用贷款和淘宝数据魔方 194
8.4.5 大数据时代的总统选举,奥巴马团队如何处理数据 195
参考文献 198