第1章 SQL Server 2008数据挖掘介绍 1
1.1 数据挖掘解决的商业问题 3
1.2 数据挖掘的任务 4
1.2.1 分类 4
1.2.2 聚类 5
1.2.3 关联 5
1.2.4 回归 6
1.2.5 预测 6
1.2.6 序列分析 7
1.2.7 偏差分析 7
1.3 数据挖掘项目的生命周期 8
1.3.1 商业问题的形成 8
1.3.2 数据收集 8
1.3.3 数据清理和转换 8
1.3.4 模型构建 9
1.3.5 模型评估 10
1.3.6 报告和预测 10
1.3.7 应用集成 10
1.3.8 模型管理 10
1.4 本章小结 11
第2章 用Microsoft Excel 2007进行数据挖掘 13
2.1 表分析工具的安装 14
2.1.1 配置具有管理权限的Analysis Services 14
2.1.2 配置没有管理权限的Analysis Services 15
2.1.3 使用该插件的要求 15
2.1.4 寻求帮助 18
2.2 分析关键影响因素工具 18
2.2.1 主影响因素报表 20
2.2.2 区别报表 21
2.2.3 分析关键影响因素任务小结 23
2.3 检测类别工具 23
2.3.1 启动工具 23
2.3.2 类别报表 24
2.3.3 检测类别工具小结 27
2.4 从示例填充工具 28
2.4.1 运行工具,解释结果 28
2.4.2 细调结果 30
2.4.3 从示例填充工具小结 31
2.5 预测工具 31
2.5.1 启动工具,指定选项 32
2.5.2 解释结果 33
2.5.3 预测工具小结 35
2.6 突出显示异常值工具 35
2.6.1 使用工具 35
2.6.2 更复杂的交互操作 37
2.6.3 限制和故障排除 39
2.6.4 突出显示异常值工具小结 39
2.7 应用场景分析工具 40
2.7.1 目标查找工具 41
2.7.2 对数字目标使用目标查找工具 43
2.7.3 对整个表使用目标查找工具 43
2.7.4 假设工具 44
2.7.5 对整个表使用假设工具 46
2.7.6 应用场景分析工具小结 47
2.8 预测计算器工具 48
2.8.1 运行工具 49
2.8.2 细调结果 52
2.8.3 使用结果 56
2.8.4 预测计算器工具小结 56
2.9 购物篮分析工具 56
2.9.1 使用工具 57
2.9.2 捆绑销售商品报表 58
2.9.3 购物篮推荐报表 59
2.9.4 调整工具 60
2.9.5 购物篮分析工具小结 61
2.10 表分析工具的技术概述 61
2.11 本章小结 62
第3章 数据挖掘概念与DMX 63
3.1 DMX的发展历史 63
3.2 为什么使用DMX 64
3.3 数据挖掘过程 64
3.4 关键概念 65
3.4.1 属性 65
3.4.2 状态 66
3.4.3 事例 66
3.4.4 键 68
3.4.5 输入和输出 69
3.5 DMX对象 70
3.5.1 挖掘结构 71
3.5.2 挖掘模型 71
3.6 DMX查询语法 72
3.6.1 创建挖掘结构 72
3.6.2 创建挖掘模型 75
3.6.3 填充挖掘结构 83
3.7 预测 88
3.7.1 预测连接 88
3.7.2 预测查询语法 89
3.7.3 预测函数 92
3.7.4 嵌套表上的预测 94
3.7.5 预测嵌套值列 95
3.8 本章小结 96
第4章 使用SQL Server进行数据挖掘 99
4.1 BI Dev Studio介绍 99
4.1.1 用户界面 100
4.1.2 脱机模式和即时模式 102
4.1.3 创建数据挖掘对象 105
4.2 设置数据源 105
4.2.1 数据源 106
4.2.2 使用数据源视图 107
4.3 创建和编辑模型 116
4.3.1 结构和模型 116
4.3.2 使用数据挖掘向导 116
4.3.3 创建MovieClick挖掘结构和挖掘模型 122
4.3.4 使用数据挖掘设计器 123
4.4 处理 129
4.5 使用模型 130
4.5.1 了解模型查看器 130
4.5.2 使用挖掘准确性图表 132
4.5.3 为MovieClick模型创建一个提升图 136
4.5.4 使用交叉验证 137
4.5.5 使用挖掘模型预测 139
4.5.6 针对MovieClick模型执行查询 140
4.5.7 创建数据挖掘报表 140
4.6 使用SQL Server Management Studio 142
4.6.1 了解Management Studio用户界面 143
4.6.2 使用服务器资源管理器 143
4.6.3 使用对象资源管理器 144
4.6.4 使用查询编辑器 144
4.7 本章小结 145
第5章 使用Office 2007执行数据挖掘过程 147
5.1 数据挖掘客户端简介 147
5.2 用数据挖掘客户端导入数据 149
5.3 数据浏览和准备 150
5.3.1 用浏览数据工具离散数据 150
5.3.2 砍掉长长的尾巴 150
5.3.3 合并多个含义 151
5.3.4 去除不合逻辑的值 153
5.3.5 配平数据 153
5.4 建模 154
5.4.1 基于任务的建模 155
5.4.2 数据挖掘客户端中的高级建模 157
5.5 准确性和验证 159
5.6 模型用法 160
5.6.1 浏览模型 160
5.6.2 用Visio查看模型 161
5.6.3 查询模型 163
5.6.4 查询向导 163
5.7 数据挖掘单元格函数 165
5.7.1 DMPREDICT函数 165
5.7.2 DMPREDICTTABLEROW函数 166
5.7.3 DMCONTENTQUERY函数 166
5.8 管理模型 167
5.9 跟踪 167
5.10 本章小结 167
第6章 Microsoft贝叶斯算法 169
6.1 贝叶斯算法介绍 169
6.2 使用贝叶斯算法 170
6.2.1 创建预测模型 171
6.2.2 数据浏览 172
6.2.3 关键影响因子的分析 173
6.2.4 文档分类 173
6.2.5 DMX 175
6.2.6 理解贝叶斯模型的内容 175
6.2.7 浏览贝叶斯模型 177
6.3 理解贝叶斯算法的基本原理 180
6.4 贝叶斯算法的参数 184
6.4.1 MAXIMUM_INPUT_ATTRIBUTES 184
6.4.2 MAXIMUM_OUTPUT_ATTRIBUTES 184
6.4.3 MAXIMUN_STATES 184
6.4.4 MINIUMUM_DEPENDENCY_PROB8ABILITY 184
6.5 本章小结 185
第7章 Microsoft决策树算法 187
7.1 决策树算法介绍 187
7.2 使用决策树算法 188
7.2.1 创建决策树模型 188
7.2.2 DMX查询 188
7.2.3 模型内容 194
7.2.4 解释模型 195
7.3 决策树算法的基本原理 197
7.3.1 决策树生成的基本思想 197
7.3.2 处理变量中的多个状态 200
7.3.3 避免过度训练 201
7.3.4 结合先验知识 201
7.3.5 特征选择 201
7.3.6 使用连续的输入属性 202
7.3.7 回归 202
7.3.8 使用Microsoft决策树算法进行关联分析 203
7.4 算法参数 204
7.4.1 Complexity_Penalty 204
7.4.2 Minimum_Support 204
7.4.3 Score_Method 205
7.4 4 Split_Method 205
7.4.5 Maximum_Input_Attribute 205
7.4.6 Maximum_Output_Attribute 205
7.4.7 Force_Regressor 206
7.5 存储过程 206
7.6 本章小结 207
第8章 Microsoft时序算法 209
8.1 Microsoft时序算法介绍 209
8.2 用法 210
8.3 DMX 214
8.3.1 模型的创建 214
8.3.2 模型的处理 216
8.3.3 预测 218
8.3.4 钻取功能 222
8.4 Microsoft时序算法的基本原理 222
8.4.1 自动回归 223
8.4.2 周期 224
8.4.3 自动回归树 224
8.4.4 预测 225
8.5 参数 226
8.5.1 Missing_Value_Substitution 226
8.5.2 Periodicity_Hint 227
8.5.3 Auto_Detect_Periodicity 227
8.5.4 Minimum_Series_Value和Maximum_Series_Value 227
8.5.5 Forecast_Method 227
8.5.6 Prediction_Smoothing 227
8.5.7 Instability_Sensitivity 228
8.5.8 Historic_Model_Count和Historic_Model_Gap 228
8.5.9 Complexity_Penalty和Minimum_Support 229
8.6 模型的内容 229
8.7 本章小结 230
第9章 Microsoft聚类算法 233
9.1 Microsoft聚类算法介绍 234
9.2 使用聚类模型 235
9.2.1 进行聚类 236
9.2.2 将聚类作为一个分析步骤 237
9.2.3 利用聚类检查异常 238
9.2.4 DMX 240
9.2.5 模型内容 243
9.2.6 理解聚类模型 244
9.3 聚类算法的基本原理 248
9.3.1 硬聚类算法与软聚类算法 248
9.3.2 离散聚类 249
9.3.3 可伸缩聚类 250
9.3.4 聚类预测 251
9.4 聚类算法的参数 251
9.4.1 Clustering_Method 251
9.4.2 Cluster_Count 252
9.4.3 Minimum_Cluster_Cases 252
9.4.4 Modelling_Cardinality 253
9.4.5 Stopping_Tolerance 253
9.4 6 Sample_Size 254
9.4.7 Cluster_Seed 254
9.4.8 Maximum_Input_Attributes 254
9.4.9 Maximum_States 254
9.5 本章小结 254
第10章 Microsoft序列聚类算法 257
10.1 Microsoft序列聚类算法介绍 257
10.2 使用Microsoft序列聚类算法 258
10.2.1 创建序列聚类模型 258
10.2.2 DMX查询 259
10.2.3 解释模型 266
10.3 Microsoft序列聚类算法的基本原理 270
10.3.1 什么是马尔可夫链 270
10.3.2 马尔可夫链的阶 271
10.3.3 状态转移矩阵 272
10.3.4 使用马尔可夫链来进行聚类 273
10.3.5 聚类分解 274
10.4 模型内容 274
10.5 序列聚类算法的参数 275
10.5.1 Cluster_Count 275
10.5.2 Minimum_Support 275
10.5.3 Maximum_States 275
10.5.4 Maximum_Sequence_States 275
10.6 本章小结 276
第11章 Microsoft关联规则算法 277
11.1 Microsoft关联规则算法介绍 278
11.2 使用关联规则算法 278
11.2.1 数据研究模型 279
11.2.2 一个简单的推荐引擎 280
11.2.3 高级交叉销售的分析 282
11.2.4 DMX 283
11.2.5 模型内容 287
11.2.6 解释模型 288
11.3 关联规则算法的基本原理 290
11.3.1 理解关联规则算法的基本概念 290
11.3.2 挖掘频繁项集 293
11.3.3 生成关联规则 295
11.3.4 预测 296
11.4 关联算法的参数 297
11.4.1 Minimum_Support 297
11.4.2 Maximum_Support 297
11.4.3 Minimum_Probability 297
11.4.4 Minimum_Importance 297
11.4.5 Maximum_Itemset_Size 298
11.4.6 Minimum_Itemset_Size 298
11.4.7 Maximum_Itemset_Count 298
11.4.8 Optimized_Prediction_Count 298
11.4.9 Autodetect_Minimum_Support 298
11.5 本章小结 298
第12章 Microsoft神经网络算法和逻辑回归算法 301
12.1 相同的基本原理,两个算法 301
12.2 使用Microsoft神经网络算法 302
12.2.1 文本分类模型 302
12.2.2 实用模型 306
12.2.3 DMX查询 306
12.3 模型内容 309
12.4 解释模型 310
12.5 Microsoft神经网络算法的基本原理 312
12.5.1 什么是神经网络 312
12.5.2 组合和激活 314
12.5.3 反向传播、误差函数和共轭梯度 315
12.5.4 处理神经网络的简单示例 316
12.5.5 规范化和映射 317
12.5.6 网络拓扑 319
12.5.7 训练终止条件 319
12.6 非线性可分类 320
12.7 神经网络算法的参数 321
12.7.1 Maximum_Input_Attributes 321
12.7.2 Maximum_Output_Attributes 321
12.7.3 Maximum_States 321
12.7.4 Holdout_percentage 321
12.7.5 Holdout_Seed 321
12.7.6 Hidden_Node_Ratio 321
12.7.7 Sample_Size 322
12.8 本章小结 322
第13章 挖掘OLAP立方体 323
13.1 OLAP介绍 324
13.1.1 理解星型模式和雪花模式 325
13.1.2 理解维和层次 326
13.1.3 理解度量和度量组 326
13.1.4 理解立方体的处理和存储 327
13.1.5 使用前摄缓存 328
13.1.6 查询立方体 328
13.2 执行计算 329
13.3 浏览立方体 330
13.4 理解统一维度模型 331
13.5 理解OLAP和数据挖掘之间的关系 334
13.5.1 挖掘聚集的数据 335
13.5.2 OLAP模式发现的需求 335
13.5.3 OLAP挖掘与关系挖掘 336
13.6 使用向导和编辑器来构建OLAP挖掘模型 336
13.6.1 使用数据挖掘向导 337
13.6.2 使用数据挖掘设计器 345
13.7 理解数据挖掘维 346
13.8 在DMX查询内部使用MDX 348
13.9 将AMO用于OLAP挖掘模型 350
13.10 本章小结 354
第14章 SQL Server集成服务数据挖掘 355
14.1 SSIS介绍 356
14.1.1 理解SSIS包 357
14.1.2 任务流 357
14.1.3 数据流 359
14.2 在SSIS环境中进行数据挖掘 361
14.2.1 数据挖掘任务 362
14.2.2 数据挖掘转换 368
14.2.3 文本挖掘转换 375
14.3 本章小结 383
第15章 SQL Server数据挖掘的体系结构 385
15.1 Analysis Services体系结构介绍 385
15.2 XML for Analysis 387
15.2.1 XMLA的API 387
15.2.2 XMLA和Analysis Services 390
15.3 处理体系结构 391
15.4 预测 393
15.5 数据挖掘管理 395
15.5.1 服务器配置 395
15.5.2 数据挖掘安全 397
15.5.3 创建和训练挖掘对象的安全需求 398
15.5.4 各种部署场景的安全性 399
15.6 本章小结 402
第16章 SQL Server数据挖掘编程 403
16.1 数据挖掘API 404
16.1.1 ADO 405
16.1.2 ADO.NET 405
16.1.3 ADOMD.NET 405
16.1.4 Server ADOMD 406
16.1.5 AMO 406
16.2 使用Analysis Services的API 406
16.3 使用Microsoft.AnalysisServices创建和管理挖掘模型 407
16.3.1 AMO的基本原理 408
16.3.2 AMO应用程序和安全 409
16.3.3 对象的创建 410
16.4 浏览和查询挖掘模型 420
16.4.1 使用ADOMD.NET来预测 420
16.4.2 ADOMD.NET中的表值参数 425
16.4.3 浏览模型 427
16.5 存储过程 429
16.5.1 编写存储过程 430
16.5.2 存储过程示例 432
16.5.3 在存储过程内部执行查询 434
16.5.4 从存储过程中返回数据集 435
16.5.5 部署和调试存储过程程序集 438
16.6 本章小结 439
第17章 扩展SQL Server数据挖掘 441
17.1 理解插件算法 441
17.1.1 插件算法的架构 442
17.1.2 插件算法实例的生命周期 443
17.1.3 插件算法的概念 444
17.1.4 模型的创建和处理 447
17.1.5 预测 450
17.1.6 内容导航 451
17.1.7 自定义函数 451
17.1.8 PMML 453
17.1.9 受托管的插件和内部插件 453
17.1.10 安装插件算法 453
17.1.11 插件算法的更多信息 454
17.2 使用数据挖掘查看器 454
17.2.1 要实现的接口 454
17.2.2 显示信息 455
17.2.3 从Analysis Services中检索信息 456
17.2.4 注册查看器 456
17.2.5 插件查看器的更多信息 457
17.3 本章小结 457
第18章 实现Web交叉销售应用程序 459
18.1 源数据描述 459
18.2 构建模型 460
18.2.1 确定数据挖掘任务 460
18.2.2 将决策树算法应用于关联任务 460
18.2.3 使用关联规则算法 462
18.2.4 两个模型的比较 463
18.3 执行预测 465
18.3.1 批量预测查询 465
18.3.2 使用单例预测查询 466
18.4 在Web应用程序中集成预测功能 467
18.4.1 理解Web应用程序的体系结构 467
18.4.2 设置权限 467
18.4.3 分析Web推荐应用程序的样例代码 469
18.5 本章小结 472
第19章 总结与其他资源 473
19.1 回顾SQL Server 2008数据挖掘的亮点 473
19.1.1 一流的算法 474
19.1.2 易于使用的工具 474
19.1.3 简单而强大的API 475
19.1.4 与同类BI技术的集成 475
19.2 探讨数据挖掘的新领域及应用 475
19.3 延伸阅读 476
19.3.1 Microsoft数据挖掘的资源 476
19.3.2 数据挖掘的其他资源 477
附录A 数据集 479
附录B 支持的函数 483
附录C 学习资源 491