前言 1
第一部分 数据挖掘介绍 1
第1章 了解数据挖掘 1
1.1 什么是数据挖掘 1
译者序 1
1.2 为何使用数据挖掘 2
1.3 当前数据挖掘是如何使用的 3
1.4 术语定义 4
1.5 数据挖掘方法 5
1.6 微软数据挖掘概述 6
1.6.2 数据挖掘模型 7
1.6.3 数据挖掘算法 7
1.6.1 数据挖掘与OLAP 7
1.6.4 在数据挖掘中使用微软SQL Server语法 9
1.7 本章小结 9
第2章 微软SQL Server Analysis Services体系结构 10
2.1 OLAP介绍 10
2.1.1 MOLAP 12
2.1.2 ROLAP 12
2.1.3 HOLAP 13
2.2 服务器结构体系结构 14
2.3 客户机结构体系结构 15
2.3.1 PivotTable Service 15
2.3.2 OLE DB 16
2.3.4 多维表达式 17
2.3.3 决策支持对象 17
2.4 本章小结 18
2.3.5 预测连接 18
第3章 数据存储模型 19
3.1 为何数据挖掘需要一个数据仓库 19
3.2 基于OLTP数据的报表可能对性能造成威胁 22
3.3 用于数据挖掘的数据仓库体系结构 23
3.3.1 由OLTP数据创建数据仓库 24
3.3.2 为挖掘而优化数据 26
3.3.3 数据挖掘物理结构 30
3.4 关系型数据仓库 32
3.4.1 关系型数据存储的优点 32
3.5.1 数据挖掘如何使用OLAP结构 33
3.4.2 为数据挖掘创建支持表 33
3.5 OLAP立方体 33
3.5.2 OLAP存储的优点 34
3.5.3 何时OLAP不适合数据挖掘 36
3.6 本章小结 36
第4章 数据挖掘的方法 37
4.1 直接数据挖掘 37
4.2 间接数据挖掘 37
4.2.1 数据挖掘与统计学 38
4.2.2 从历史数据中学习 42
4.2.3 预测未来 43
4.3 数据挖掘模型的训练 45
4.4 本章小结 48
第5章 微软决策树 49
5.1 创建模型 49
第二部分 数据挖掘方法 49
5.2 使模型可视化 63
5.2.1 Dependency Network Browser 67
5.2.2 深入决策树算法 71
5.3 如何推导预测结果 81
5.3.1 导航树 81
5.3.2 导航与规则 83
5.3.3 何时使用决策树 84
5.4 本章小结 84
6.1.1 选择源的类型 85
第6章 使用OLAP创建决策树 85
6.1 创建模型 85
6.1.2 选择源立方体和数据挖掘技术 86
6.1.3 选择实例 87
6.1.4 选择预测实体 88
6.1.5 选择训练数据 89
6.1.6 选择维和虚拟立方体 90
6.1.7 完成数据挖掘模型 91
6.2 OLAP挖掘模型编辑器 93
6.2.1 内容细节面板 93
6.2.2 结构面板 93
6.3 使用OLAP数据挖掘模型分析数据 94
6.2.3 预测树列表 94
6.3.1 使用生成的虚拟立方体 95
6.3.2 使用生成的维 96
6.4 本章小结 99
第7章 微软聚类 100
7.1 分类 101
7.2 分类的作用 101
7.3 聚类是间接数据挖掘技术 101
7.4 聚类是如何工作的 102
7.4.1 算法概述 102
7.4.2 K-Means聚类算法 102
7.4.4 聚类要素 105
7.4.3 何谓准确度量 105
7.4.5 度量“接近程度” 106
7.5 何时使用聚类 108
7.5.1 使关系可视化 108
7.5.2 使异常数据更醒目 108
7.5.3 为其他数据挖掘工作创建样本 109
7.5.4 聚类的弱点 109
7.6 使用聚类创建数据挖掘模型 110
7.6.1 选择源类型 110
7.6.2 为数据挖掘模型选择表 111
7.6.3 选择数据挖掘技术 112
7.6.4 编辑连接 112
7.6.5 为数据挖掘选择实例的关键列 112
7.6.6 选择用于输入的和可预测的列 113
7.7 查看模型 114
7.7.1 聚类节点的组织结构 115
7.7.2 聚类节点的排序 116
7.8 分析数据 116
7.9 本章小结 117
第三部分 数据挖掘应用编程 119
第8章 利用微软数据转换服务 119
8.1 什么是DTS 119
8.2 DTS任务 120
8.2.1 转换 120
8.2.3 数据驱动查询 121
8.2.4 执行包 121
8.2.2 批录入 121
8.3 连接 124
8.3.1 源 124
8.3.2 配置连接 125
8.4 DTS包工作流程 125
8.4.1 DTS包的流程控制 125
8.4.2 优先权约束 126
8.5 DTS设计器 126
8.5.1 打开DTS设计器 127
8.5.2 保存DTS包 127
8.6 dtsrun实用程序 129
8.7 用DTS建立数据挖掘模型 131
8.7.1 SQL Server环境准备 132
8.7.2 创建包 136
8.8 本章小结 158
第9章 使用决策支持对象 159
9.1 脚本语言与VB编程 159
9.1.1 Server对象 161
9.1.2 Database对象 167
9.2 用DSO创建关系数据挖掘模型 169
9.3 用DSO创建OLAP数据挖掘模型 178
9.3.1 DataSource对象 181
9.3.2 数据挖掘模型 181
9.4 添加新的数据源 181
9.5 Analysis服务器角色 182
9.5.2 添加一个新的数据挖掘模型角色 183
9.5.1 数据挖掘模型角色 183
9.6 本章小结 184
第10章 理解数据挖掘结构 185
10.1 数据挖掘模型实例的结构 185
10.2 使用程序代码来浏览数据挖掘模型 185
10.3 使用模式行集 190
10.3.1 MINING_MODELS模式行集 190
10.3.2 MINING_COLUMNS模式行集 195
10.3.3 MINING_MODEL_CONTENT模式行集 201
10.3.4 MINING_SERVICES模式行集 204
10.3.5 SERVICE_PARAMETERS模式行集 206
10.3.6 MODEL_CONTENT_PMML模式行集 208
10.4 本章小结 209
第11章 使用PivotTable Service进行数据挖掘 210
11.1 重新分配组件 211
11.2 安装和注册组件 211
11.2.1 文件位置 212
11.2.2 安装注册设置 213
11.2.3 重新分配安装程序 213
11.3 连接到PivotTable Service 214
11.3.1 使用PivotTable Service连接到Analysis Services 214
11.3.2 使用HTTP连接到Analysis Services 216
11.4 创建本地数据挖掘模型 217
11.4.1 本地挖掘模型的存储 219
11.4.2 SELECT INTO语句 221
11.4.3 INSERT INTO语句 221
11.4.4 OPENROWSET语法 222
11.4.5 嵌套表和SHAPE语句 224
11.5 在数据挖掘中使用XML 225
11.6 本章小结 230
第12章 数据挖掘查询 231
12.1 预测查询组件 231
12.1.1 基本的预测查询 231
12.1.2 指定测试实例源 231
12.1.3 指定列 233
12.1.4 PREDICTION JOIN子句 233
12.1.5 使用函数作为列 237
12.1.6 使用表值作为列 237
12.1.9 Predict 239
12.1.8 预测函数 239
12.1.7 WHERE子句 239
12.1.10 PredictProbability 240
12.1.11 PredictSupport 240
12.1.12 PredictVariance 241
12.1.13 PredictStdev 241
12.1.14 PredictProbabilityVariance 241
12.1.15 PredictProbabilityStdev 241
12.1.16 PredictHistogram 241
12.1.17 TopCount 244
12.1.18 TopSum 244
12.1.19 TopPercent 244
12.1.23 PredictScore 245
12.2 带聚类模型的预测查询 245
12.1.24 PredictNodeId 245
12.1.21 RangeMid 245
12.1.22 RangeMax 245
12.1.20 RangeMin 245
12.2.1 Cluster 246
12.2.2 ClusterProbability 246
12.2.3 ClusterDistance 247
12.3 使用DTS来运行预测查询 247
12.4 本章小结 252
附录 253
附录A 回归分析 253
附录B 术语表 271