目录 1
第1章数据仓库与数据挖掘概述 1
1.1数据仓库引论 1
1.1.1为什么要建立数据仓库 1
1.1.2什么是数据仓库 2
1.1.3数据仓库的特点 6
1.1.4数据进入数据仓库的基本过程与建立数据仓库的步骤 11
1.1.5分析数据仓库的内容 11
1.2数据挖掘引论 12
1.2.1 为什么要进行数据挖掘 13
1.2.2什么是数据挖掘 17
1.2.3数据挖掘的特点 20
1.2.4数据挖掘的基本过程与步骤 21
1.2.5分析数据挖掘的内容 24
1.3数据挖掘与数据仓库的关系 26
1.4数据仓库与数据挖掘的应用 29
1.4.1数据挖掘在零售业的应用 29
1.4.2数据挖掘在商业银行中的应用 34
1.4.3数据挖掘在电信部门的应用 38
1.4.4数据挖掘在贝斯出口公司的应用 39
1.4.5数据挖掘如何预测信用卡欺诈 39
思考练习题 41
1.4.6数据挖掘在证券行业的应用 41
第2章数据仓库的分析 43
2.1影响数据仓库成功的因素 43
2.2数据仓库的生命周期 44
2.2.1数据仓库计划与准备阶段 45
2.2.2数据仓库的其他阶段 51
2.3数据仓库的基本体系结构 53
2.4数据仓库的逻辑结构 56
2.4.1数据仓厍中的粒度 56
2.4.2数据仓库中的数据分割 57
2.4.3数据仓库中的数据组织 57
2.4.5数据仓库中的元数据 58
2.4.4数据仓库中的快照 58
思考练习题 59
第3章数据仓库的设计与实施 60
3.1从数据库到数据仓库 60
3.2面向主题的数据仓库设计 61
3.2.1数据建模 61
3.2.2星型连接 61
3.3开发数据仓库的物理设计 69
3.3.1数据仓库设计工具的选择 69
3.3.2物理数据模型设计 70
3.4数据仓库的实施 71
3.4.1数据仓库的实施应注意的问题 71
3.3.3数据仓库中数据表的数量与规范化 71
3.4.2在实施数据仓库过程中应避免的错误 72
3.4.3数据仓库项目实施成功的要诀 75
思考练习题 79
第4章信息分析的基本技术 80
4.1 自动信息分析的基本技术 80
4.1.1智能代理 80
4.1.2群体智能 83
4.1.3小波分析 86
4.1.4分形技术分析 88
4.2联机分析 89
4.2.1联机分析OLAP的基本术语 90
4.2.2 OLAP体系结构和处理的特性 91
4.2.3 OLAP多维数据结构与OLAP的分类 92
4.2.4 OLAP的多维数据分析方法 93
4.2.5 OLAP评价准则 95
4.2.6 OLAP的发展与流行的OLAP工具选择 97
4.3 Rough的信息分析技术 99
4.3.1粗糙集理论的基本概念和理论基础 99
4.3.2粗糙集在信息分析中的特征表示 101
思考练习题 102
5.1数据挖掘的方法与基本流程 104
5.1.1 SEMMA方法 104
第5章数据挖掘过程 104
5.1.2数据挖掘的基本流程 105
5.2确定主题和定义数据挖掘任务 106
5.2.1确定主题 107
5.2.2定义数据挖掘任务 108
5.3数据预处理 109
5.3.1数据的收集和准备 109
5.3.2数据清理 110
5.3.3数据集成 111
5.3.4数据变换 113
5.3.5数据归约 113
5.4数据挖掘的模型建立与理解 114
5.3.6微软数据转换服务 114
5.4.1关于模型的准确性 116
5.4.2关于模型的可理解性 116
5.4.3关于模型的性能 117
5.4.4描述和可视化 117
5.4.5验证与评估 119
5.5数据挖掘中常见的一些问题 120
5.5.1商业用户提出的问题 120
5.5.2技术问题 120
5.5.3数据挖掘应用问题 120
5.5.4实施数据挖掘项目考虑的问题 121
5.5.5数据挖掘对社会的影响——有关隐私问题 121
5.6事先无法预测的有价值知识 122
思考练习题 123
第6章数据挖掘基本算法 124
6.1分类规则挖掘 124
6.1.1分类与估值 124
6.1.2决策树 127
6.1.3贝叶斯分类 134
6.2预测分析与趋势分析规则 138
6.2.1预言的基本方法 138
6.2.2定量分析预测 139
6.2.3预测的结果分析 141
6.2.4趋势分析挖掘 142
6.3数据挖掘的关联算法 143
6.3.1关联规则的概念及分类 143
6.3.2简单形式的关联规则算法(单维、单层和布尔关联规则) 147
6.3.3多层和多维关联规则的挖掘 152
6.3.4货篮子分析存在的问题 155
6.3.5关联分析的其他算法 157
6.3.6挖掘序列模式 160
6.4数据挖掘的聚类算法 164
6.4.1聚类分析的概念与分类 165
6.4.2聚类分析中两个对象之间的相异度计算方法 171
6.4.3划分方法 177
6.4.4层次方法 181
6.4.5基于密度的方法 186
6.4.6基于网格的方法 189
6.4.7基于模型的聚类方法 191
6.4.8模糊聚类算法 193
6.5数据挖掘的统计分析算法 193
6.5.1辨别分析 193
6.5.2回归建模 194
6.5.3优点和缺点 194
6.6数据挖掘的品种优化算法 194
6.6.1品种优化 194
6.6.2品种优化的算法 197
6.7数据挖掘的进化算法 199
6.7.1遗传算法 200
6.7.2数据挖掘的神经网络算法 201
思考练习题 205
第7章非结构化数据挖掘 207
7.1 Web数据挖掘 207
7.1.1非结构化Web数据源 208
7.1.2 Web挖掘分类 213
7.1.3 Web内容挖掘 215
7.1.4 Web结构挖掘 216
7.1.5 Web访问挖掘 216
7.1.6利用Web日志的聚类算法 219
7.1.7电子商务中的Web挖掘 221
7.2空间群数据挖掘 225
7.2.1空间数据挖掘的概念 225
7.2.2空间数据挖掘的分类 225
7.2.3空间数据挖掘的体系结构 226
7.3多媒体数据挖掘 227
7.3.1多媒体数据挖掘的概念 227
7.3.2多媒体数据挖掘的分类 227
7.3.3多媒体数据挖掘的体系结构 227
思考练习题 228
第8章离群数据挖掘 229
8.1离群数据挖掘的概念 229
8.2离群数据挖掘的分类 230
8.3离群数据挖掘的算法 231
8.3.1基于统计的方法 231
8.3.2基于距离的离群数据方法 233
8.3.3基于偏离的离群数据挖掘 236
8.3.4高维数据的离群数据挖掘 237
8.3.5基于小波的离群数据挖掘 238
8.4市场营销离群数据挖掘 241
8.4.1市场营销离群数据的特点 242
8.4.2基于分形的市场营销离群数据挖掘模型 242
思考练习题 244
9.1.1数据挖掘语言的分类 245
9.1数据挖掘语言及其标准化 245
第9章数据挖掘语言与工具的选择 245
9.1.2分析与评价 251
9.2数据挖掘的研究热点 251
9.3数据挖掘工具的选择 252
9.3.1评价数据挖掘工具的优劣指标 253
9.3.2通用数据挖掘产品与工具 254
9.3.3国内的数据挖掘产品与工具 268
9.3.4数据可视化工具的选择 270
9.3.5数据挖掘网站与可获得的数据挖掘算法源代码 271
思考练习题 273
10.1.1知识 274
10.1知识管理 274
第10章知识管理与知识管理系统 274
10.1.2知识管理的定义 275
10.1.3有效的知识管理 276
10.2知识管理系统 279
10.2.1知识管理共享的条件 280
10.2.2知识管理共享的困难 280
10.2.3知识管理的激励机制 281
10.2.4知识管理的体系结构 284
思考练习题 286
附录数据挖掘产品部分信息 287
参考文献 289