《数据挖掘原理与应用 SQL Server 2008数据库》PDF下载

  • 购买积分:15 如何计算积分?
  • 作  者:(美)迈克伦南,(美)唐朝晖,(美)克里沃茨著
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2010
  • ISBN:9787302228424
  • 页数:492 页
图书介绍:本书全面介绍了SQL Server 2008中数据挖掘的功能,并对这些功能的应用作了较为详尽的讲述。

第1章 SQL Server 2008数据挖掘介绍 1

1.1 数据挖掘解决的商业问题 3

1.2 数据挖掘的任务 4

1.2.1 分类 4

1.2.2 聚类 5

1.2.3 关联 5

1.2.4 回归 6

1.2.5 预测 6

1.2.6 序列分析 7

1.2.7 偏差分析 7

1.3 数据挖掘项目的生命周期 8

1.3.1 商业问题的形成 8

1.3.2 数据收集 8

1.3.3 数据清理和转换 8

1.3.4 模型构建 9

1.3.5 模型评估 10

1.3.6 报告和预测 10

1.3.7 应用集成 10

1.3.8 模型管理 10

1.4 本章小结 11

第2章 用Microsoft Excel 2007进行数据挖掘 13

2.1 表分析工具的安装 14

2.1.1 配置具有管理权限的Analysis Services 14

2.1.2 配置没有管理权限的Analysis Services 15

2.1.3 使用该插件的要求 15

2.1.4 寻求帮助 18

2.2 分析关键影响因素工具 18

2.2.1 主影响因素报表 20

2.2.2 区别报表 21

2.2.3 分析关键影响因素任务小结 23

2.3 检测类别工具 23

2.3.1 启动工具 23

2.3.2 类别报表 24

2.3.3 检测类别工具小结 27

2.4 从示例填充工具 28

2.4.1 运行工具,解释结果 28

2.4.2 细调结果 30

2.4.3 从示例填充工具小结 31

2.5 预测工具 31

2.5.1 启动工具,指定选项 32

2.5.2 解释结果 33

2.5.3 预测工具小结 35

2.6 突出显示异常值工具 35

2.6.1 使用工具 35

2.6.2 更复杂的交互操作 37

2.6.3 限制和故障排除 39

2.6.4 突出显示异常值工具小结 39

2.7 应用场景分析工具 40

2.7.1 目标查找工具 41

2.7.2 对数字目标使用目标查找工具 43

2.7.3 对整个表使用目标查找工具 43

2.7.4 假设工具 44

2.7.5 对整个表使用假设工具 46

2.7.6 应用场景分析工具小结 47

2.8 预测计算器工具 48

2.8.1 运行工具 49

2.8.2 细调结果 52

2.8.3 使用结果 56

2.8.4 预测计算器工具小结 56

2.9 购物篮分析工具 56

2.9.1 使用工具 57

2.9.2 捆绑销售商品报表 58

2.9.3 购物篮推荐报表 59

2.9.4 调整工具 60

2.9.5 购物篮分析工具小结 61

2.10 表分析工具的技术概述 61

2.11 本章小结 62

第3章 数据挖掘概念与DMX 63

3.1 DMX的发展历史 63

3.2 为什么使用DMX 64

3.3 数据挖掘过程 64

3.4 关键概念 65

3.4.1 属性 65

3.4.2 状态 66

3.4.3 事例 66

3.4.4 键 68

3.4.5 输入和输出 69

3.5 DMX对象 70

3.5.1 挖掘结构 71

3.5.2 挖掘模型 71

3.6 DMX查询语法 72

3.6.1 创建挖掘结构 72

3.6.2 创建挖掘模型 75

3.6.3 填充挖掘结构 83

3.7 预测 88

3.7.1 预测连接 88

3.7.2 预测查询语法 89

3.7.3 预测函数 92

3.7.4 嵌套表上的预测 94

3.7.5 预测嵌套值列 95

3.8 本章小结 96

第4章 使用SQL Server进行数据挖掘 99

4.1 BI Dev Studio介绍 99

4.1.1 用户界面 100

4.1.2 脱机模式和即时模式 102

4.1.3 创建数据挖掘对象 105

4.2 设置数据源 105

4.2.1 数据源 106

4.2.2 使用数据源视图 107

4.3 创建和编辑模型 116

4.3.1 结构和模型 116

4.3.2 使用数据挖掘向导 116

4.3.3 创建MovieClick挖掘结构和挖掘模型 122

4.3.4 使用数据挖掘设计器 123

4.4 处理 129

4.5 使用模型 130

4.5.1 了解模型查看器 130

4.5.2 使用挖掘准确性图表 132

4.5.3 为MovieClick模型创建一个提升图 136

4.5.4 使用交叉验证 137

4.5.5 使用挖掘模型预测 139

4.5.6 针对MovieClick模型执行查询 140

4.5.7 创建数据挖掘报表 140

4.6 使用SQL Server Management Studio 142

4.6.1 了解Management Studio用户界面 143

4.6.2 使用服务器资源管理器 143

4.6.3 使用对象资源管理器 144

4.6.4 使用查询编辑器 144

4.7 本章小结 145

第5章 使用Office 2007执行数据挖掘过程 147

5.1 数据挖掘客户端简介 147

5.2 用数据挖掘客户端导入数据 149

5.3 数据浏览和准备 150

5.3.1 用浏览数据工具离散数据 150

5.3.2 砍掉长长的尾巴 150

5.3.3 合并多个含义 151

5.3.4 去除不合逻辑的值 153

5.3.5 配平数据 153

5.4 建模 154

5.4.1 基于任务的建模 155

5.4.2 数据挖掘客户端中的高级建模 157

5.5 准确性和验证 159

5.6 模型用法 160

5.6.1 浏览模型 160

5.6.2 用Visio查看模型 161

5.6.3 查询模型 163

5.6.4 查询向导 163

5.7 数据挖掘单元格函数 165

5.7.1 DMPREDICT函数 165

5.7.2 DMPREDICTTABLEROW函数 166

5.7.3 DMCONTENTQUERY函数 166

5.8 管理模型 167

5.9 跟踪 167

5.10 本章小结 167

第6章 Microsoft贝叶斯算法 169

6.1 贝叶斯算法介绍 169

6.2 使用贝叶斯算法 170

6.2.1 创建预测模型 171

6.2.2 数据浏览 172

6.2.3 关键影响因子的分析 173

6.2.4 文档分类 173

6.2.5 DMX 175

6.2.6 理解贝叶斯模型的内容 175

6.2.7 浏览贝叶斯模型 177

6.3 理解贝叶斯算法的基本原理 180

6.4 贝叶斯算法的参数 184

6.4.1 MAXIMUM_INPUT_ATTRIBUTES 184

6.4.2 MAXIMUM_OUTPUT_ATTRIBUTES 184

6.4.3 MAXIMUN_STATES 184

6.4.4 MINIUMUM_DEPENDENCY_PROB8ABILITY 184

6.5 本章小结 185

第7章 Microsoft决策树算法 187

7.1 决策树算法介绍 187

7.2 使用决策树算法 188

7.2.1 创建决策树模型 188

7.2.2 DMX查询 188

7.2.3 模型内容 194

7.2.4 解释模型 195

7.3 决策树算法的基本原理 197

7.3.1 决策树生成的基本思想 197

7.3.2 处理变量中的多个状态 200

7.3.3 避免过度训练 201

7.3.4 结合先验知识 201

7.3.5 特征选择 201

7.3.6 使用连续的输入属性 202

7.3.7 回归 202

7.3.8 使用Microsoft决策树算法进行关联分析 203

7.4 算法参数 204

7.4.1 Complexity_Penalty 204

7.4.2 Minimum_Support 204

7.4.3 Score_Method 205

7.4 4 Split_Method 205

7.4.5 Maximum_Input_Attribute 205

7.4.6 Maximum_Output_Attribute 205

7.4.7 Force_Regressor 206

7.5 存储过程 206

7.6 本章小结 207

第8章 Microsoft时序算法 209

8.1 Microsoft时序算法介绍 209

8.2 用法 210

8.3 DMX 214

8.3.1 模型的创建 214

8.3.2 模型的处理 216

8.3.3 预测 218

8.3.4 钻取功能 222

8.4 Microsoft时序算法的基本原理 222

8.4.1 自动回归 223

8.4.2 周期 224

8.4.3 自动回归树 224

8.4.4 预测 225

8.5 参数 226

8.5.1 Missing_Value_Substitution 226

8.5.2 Periodicity_Hint 227

8.5.3 Auto_Detect_Periodicity 227

8.5.4 Minimum_Series_Value和Maximum_Series_Value 227

8.5.5 Forecast_Method 227

8.5.6 Prediction_Smoothing 227

8.5.7 Instability_Sensitivity 228

8.5.8 Historic_Model_Count和Historic_Model_Gap 228

8.5.9 Complexity_Penalty和Minimum_Support 229

8.6 模型的内容 229

8.7 本章小结 230

第9章 Microsoft聚类算法 233

9.1 Microsoft聚类算法介绍 234

9.2 使用聚类模型 235

9.2.1 进行聚类 236

9.2.2 将聚类作为一个分析步骤 237

9.2.3 利用聚类检查异常 238

9.2.4 DMX 240

9.2.5 模型内容 243

9.2.6 理解聚类模型 244

9.3 聚类算法的基本原理 248

9.3.1 硬聚类算法与软聚类算法 248

9.3.2 离散聚类 249

9.3.3 可伸缩聚类 250

9.3.4 聚类预测 251

9.4 聚类算法的参数 251

9.4.1 Clustering_Method 251

9.4.2 Cluster_Count 252

9.4.3 Minimum_Cluster_Cases 252

9.4.4 Modelling_Cardinality 253

9.4.5 Stopping_Tolerance 253

9.4 6 Sample_Size 254

9.4.7 Cluster_Seed 254

9.4.8 Maximum_Input_Attributes 254

9.4.9 Maximum_States 254

9.5 本章小结 254

第10章 Microsoft序列聚类算法 257

10.1 Microsoft序列聚类算法介绍 257

10.2 使用Microsoft序列聚类算法 258

10.2.1 创建序列聚类模型 258

10.2.2 DMX查询 259

10.2.3 解释模型 266

10.3 Microsoft序列聚类算法的基本原理 270

10.3.1 什么是马尔可夫链 270

10.3.2 马尔可夫链的阶 271

10.3.3 状态转移矩阵 272

10.3.4 使用马尔可夫链来进行聚类 273

10.3.5 聚类分解 274

10.4 模型内容 274

10.5 序列聚类算法的参数 275

10.5.1 Cluster_Count 275

10.5.2 Minimum_Support 275

10.5.3 Maximum_States 275

10.5.4 Maximum_Sequence_States 275

10.6 本章小结 276

第11章 Microsoft关联规则算法 277

11.1 Microsoft关联规则算法介绍 278

11.2 使用关联规则算法 278

11.2.1 数据研究模型 279

11.2.2 一个简单的推荐引擎 280

11.2.3 高级交叉销售的分析 282

11.2.4 DMX 283

11.2.5 模型内容 287

11.2.6 解释模型 288

11.3 关联规则算法的基本原理 290

11.3.1 理解关联规则算法的基本概念 290

11.3.2 挖掘频繁项集 293

11.3.3 生成关联规则 295

11.3.4 预测 296

11.4 关联算法的参数 297

11.4.1 Minimum_Support 297

11.4.2 Maximum_Support 297

11.4.3 Minimum_Probability 297

11.4.4 Minimum_Importance 297

11.4.5 Maximum_Itemset_Size 298

11.4.6 Minimum_Itemset_Size 298

11.4.7 Maximum_Itemset_Count 298

11.4.8 Optimized_Prediction_Count 298

11.4.9 Autodetect_Minimum_Support 298

11.5 本章小结 298

第12章 Microsoft神经网络算法和逻辑回归算法 301

12.1 相同的基本原理,两个算法 301

12.2 使用Microsoft神经网络算法 302

12.2.1 文本分类模型 302

12.2.2 实用模型 306

12.2.3 DMX查询 306

12.3 模型内容 309

12.4 解释模型 310

12.5 Microsoft神经网络算法的基本原理 312

12.5.1 什么是神经网络 312

12.5.2 组合和激活 314

12.5.3 反向传播、误差函数和共轭梯度 315

12.5.4 处理神经网络的简单示例 316

12.5.5 规范化和映射 317

12.5.6 网络拓扑 319

12.5.7 训练终止条件 319

12.6 非线性可分类 320

12.7 神经网络算法的参数 321

12.7.1 Maximum_Input_Attributes 321

12.7.2 Maximum_Output_Attributes 321

12.7.3 Maximum_States 321

12.7.4 Holdout_percentage 321

12.7.5 Holdout_Seed 321

12.7.6 Hidden_Node_Ratio 321

12.7.7 Sample_Size 322

12.8 本章小结 322

第13章 挖掘OLAP立方体 323

13.1 OLAP介绍 324

13.1.1 理解星型模式和雪花模式 325

13.1.2 理解维和层次 326

13.1.3 理解度量和度量组 326

13.1.4 理解立方体的处理和存储 327

13.1.5 使用前摄缓存 328

13.1.6 查询立方体 328

13.2 执行计算 329

13.3 浏览立方体 330

13.4 理解统一维度模型 331

13.5 理解OLAP和数据挖掘之间的关系 334

13.5.1 挖掘聚集的数据 335

13.5.2 OLAP模式发现的需求 335

13.5.3 OLAP挖掘与关系挖掘 336

13.6 使用向导和编辑器来构建OLAP挖掘模型 336

13.6.1 使用数据挖掘向导 337

13.6.2 使用数据挖掘设计器 345

13.7 理解数据挖掘维 346

13.8 在DMX查询内部使用MDX 348

13.9 将AMO用于OLAP挖掘模型 350

13.10 本章小结 354

第14章 SQL Server集成服务数据挖掘 355

14.1 SSIS介绍 356

14.1.1 理解SSIS包 357

14.1.2 任务流 357

14.1.3 数据流 359

14.2 在SSIS环境中进行数据挖掘 361

14.2.1 数据挖掘任务 362

14.2.2 数据挖掘转换 368

14.2.3 文本挖掘转换 375

14.3 本章小结 383

第15章 SQL Server数据挖掘的体系结构 385

15.1 Analysis Services体系结构介绍 385

15.2 XML for Analysis 387

15.2.1 XMLA的API 387

15.2.2 XMLA和Analysis Services 390

15.3 处理体系结构 391

15.4 预测 393

15.5 数据挖掘管理 395

15.5.1 服务器配置 395

15.5.2 数据挖掘安全 397

15.5.3 创建和训练挖掘对象的安全需求 398

15.5.4 各种部署场景的安全性 399

15.6 本章小结 402

第16章 SQL Server数据挖掘编程 403

16.1 数据挖掘API 404

16.1.1 ADO 405

16.1.2 ADO.NET 405

16.1.3 ADOMD.NET 405

16.1.4 Server ADOMD 406

16.1.5 AMO 406

16.2 使用Analysis Services的API 406

16.3 使用Microsoft.AnalysisServices创建和管理挖掘模型 407

16.3.1 AMO的基本原理 408

16.3.2 AMO应用程序和安全 409

16.3.3 对象的创建 410

16.4 浏览和查询挖掘模型 420

16.4.1 使用ADOMD.NET来预测 420

16.4.2 ADOMD.NET中的表值参数 425

16.4.3 浏览模型 427

16.5 存储过程 429

16.5.1 编写存储过程 430

16.5.2 存储过程示例 432

16.5.3 在存储过程内部执行查询 434

16.5.4 从存储过程中返回数据集 435

16.5.5 部署和调试存储过程程序集 438

16.6 本章小结 439

第17章 扩展SQL Server数据挖掘 441

17.1 理解插件算法 441

17.1.1 插件算法的架构 442

17.1.2 插件算法实例的生命周期 443

17.1.3 插件算法的概念 444

17.1.4 模型的创建和处理 447

17.1.5 预测 450

17.1.6 内容导航 451

17.1.7 自定义函数 451

17.1.8 PMML 453

17.1.9 受托管的插件和内部插件 453

17.1.10 安装插件算法 453

17.1.11 插件算法的更多信息 454

17.2 使用数据挖掘查看器 454

17.2.1 要实现的接口 454

17.2.2 显示信息 455

17.2.3 从Analysis Services中检索信息 456

17.2.4 注册查看器 456

17.2.5 插件查看器的更多信息 457

17.3 本章小结 457

第18章 实现Web交叉销售应用程序 459

18.1 源数据描述 459

18.2 构建模型 460

18.2.1 确定数据挖掘任务 460

18.2.2 将决策树算法应用于关联任务 460

18.2.3 使用关联规则算法 462

18.2.4 两个模型的比较 463

18.3 执行预测 465

18.3.1 批量预测查询 465

18.3.2 使用单例预测查询 466

18.4 在Web应用程序中集成预测功能 467

18.4.1 理解Web应用程序的体系结构 467

18.4.2 设置权限 467

18.4.3 分析Web推荐应用程序的样例代码 469

18.5 本章小结 472

第19章 总结与其他资源 473

19.1 回顾SQL Server 2008数据挖掘的亮点 473

19.1.1 一流的算法 474

19.1.2 易于使用的工具 474

19.1.3 简单而强大的API 475

19.1.4 与同类BI技术的集成 475

19.2 探讨数据挖掘的新领域及应用 475

19.3 延伸阅读 476

19.3.1 Microsoft数据挖掘的资源 476

19.3.2 数据挖掘的其他资源 477

附录A 数据集 479

附录B 支持的函数 483

附录C 学习资源 491