第一篇 数据仓库 3
第1章 数据仓库基础 3
1.1 概述 3
1.1.1 演变 3
1.1.2 定义 5
1.2 体系结构 6
1.2.1 两层的体系结构 6
1.2.2 三层的体系结构 8
1.3 组成 9
1.3.1 加载管理器 10
1.3.2 仓库管理器 11
1.3.3 查询管理器 13
1.4 元数据 14
1.4.1 定义和分类 14
1.4.2 标准化 15
1.4.3 CWM 16
1.4.4 UML、MOF和XMI与CWM的关系 20
1.5 数据粒度 22
1.6 数据模型 23
1.7 ETL过程 23
1.7.1 主要流程 24
1.7.2 数据抽取 24
1.7.3 数据转换 27
1.7.4 数据加载 27
1.8 数据质量 29
1.8.1 主要问题 29
1.8.2 评价标准 30
1.8.3 管理目标 31
1.8.4 管理体系 32
1.8.5 数据规划 35
1.8.6 技术方案 38
第2章 数据仓库设计和实现 50
2.1 数据仓库设计 50
2.1.1 设计方法 52
2.1.2 体系结构设计 53
2.1.3 数据模型设计 55
2.1.4 ETL设计 74
2.2 数据仓库实现 80
第3章 数据仓库实例 84
3.1 实例一 84
3.1.1 选择主题 84
3.1.2 逻辑模型 85
3.1.3 物理模型 92
3.1.4 ETL 93
3.2 实例二 97
3.2.1 总体结构 97
3.2.2 概念模型 99
3.2.3 逻辑模 100
3.2.4 物理模型 106
3.2.5 数据清洗 108
3.2.6 ETL 109
第4章 数据仓库应用——OLAP和OLAM 115
4.1 OLAP 115
4.2 OLAM 119
4.2.1 体系结构 120
4.2.2 特点 122
4.2.3 基于Web的OLAM 123
第二篇 数据挖掘 127
第5章 数据挖掘基础 127
5.1 概述 127
5.1.1 定义 127
5.1.2 功能 130
5.1.3 模型 131
5.1.4 展望 137
5.2 实现 139
5.3 工具 140
5.3.1 概述 140
5.3.2 比较 141
第6章 聚类分析 145
6.1 硬聚类 146
6.1.1 概述 146
6.1.2 相似度计算 149
6.1.3 实现方法 151
6.1.4 主要算法 152
6.2 模糊聚类 165
6.2.1 概述 165
6.2.2 主要算法 168
6.3 评价 171
第7章 分类和预测 177
7.1 神经网络 178
7.2 决策树 182
7.3 实现过程 187
第8章 关联分析 189
8.1 概述 189
8.2 Apriori 192
8.3 FP-Growth 196
第9章 Web挖掘 198
9.1 概述 199
9.1.1 定义和分类 199
9.1.2 主要技术 202
9.1.3 实现过程 213
9.2 Web资源获取 215
9.3 Web预处理 217
9.3.1 Web过滤 217
9.3.2 Web去重 224
9.4 Web抽取和表示 236
9.4.1 Web抽取 236
9.4.2 Web表示 236
9.5 Web特征提取 238
9.6 Web聚类 240
9.7 Web分类 242
9.7.1 朴素贝叶斯 243
9.7.2 支持向量机 244
9.7.3 评价 245
第10章 数据挖掘实例 247
10.1 客户细分 247
10.1.1 定义 247
10.1.2 数据准备 250
10.1.3 建模过程 251
10.1.4 结果 256
10.2 重入网识别 258
10.2.1 定义 258
10.2.2 数据准备 258
10.2.3 建模过程 265
10.2.4 结果 267
10.3 虚开欺诈识别 268
10.3.1 定义 268
10.3.2 数据准备 268
10.3.3 建模过程 269
10.3.4 结果 269
10.4 数据业务收入预测 272
10.4.1 定义 272
10.4.2 数据准备 272
10.4.3 建模过程 284
10.4.4 结果 286
10.5 移动客户流失预测 287
10.5.1 定义 288
10.5.2 数据准备 289
10.5.3 特征变量选取 289
10.5.4 建模过程 291
10.5.5 结果 293
10.5.6 应用 298
10.6 WAP日志挖掘 299
10.6.1 定义 300
10.6.2 数据准备 301
10.6.3 建模过程 305
10.6.4 结果 306
第三篇 语义网和本体 311
第11章 知识基础 311
11.1 概述 311
11.2 知识分类 316
11.3 知识表示 316
11.3.1 知识表示观 317
11.3.2 知识表示方法 319
11.4 知识可视化 325
11.4.1 主要技术 326
11.4.2 工具 333
11.5 知识管理 335
11.5.1 概述 335
11.5.2 模型和技术 338
11.5.3 知识管理系统 341
11.5.4 方法和步骤 343
第12章 语义网和本体 345
12.1 语义网 345
12.1.1 概述 345
12.1.2 层次结构 349
12.1.3 元数据 351
12.1.4 核心技术 353
12.1.5 开发工具——Jena 356
12.1.6 Web 3.0 356
12.2 本体 358
12.2.1 哲学本源 358
12.2.2 定义 359
12.2.3 建模 359
12.2.4 分类 360
12.2.5 构建方法 360
12.2.6 描述语言 363
12.2.7 实例 365
参考文献 372