《数据仓库与数据挖掘应用教程》PDF下载

  • 购买积分:12 如何计算积分?
  • 作  者:李春葆,蒋林,陈良臣,喻丹丹,曾平编著
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2016
  • ISBN:9787302430773
  • 页数:303 页
图书介绍:本书以SQL Server分析服务为环境介绍数据仓库和数据挖掘应用技术,包括数据仓库和数据挖掘概述、OLAP和多维数据模型、数据仓库设计和SQL Server数据仓库开发实例、关联分析算法、决策树分类算法、贝叶斯分类算法、神经网络算法、回归分析算法、时间序列分析和聚类方法。

第1章 数据仓库和数据挖掘概述 1

1.1 数据仓库概述 2

1.1.1 数据仓库的定义 2

1.1.2 数据仓库与操作型数据库的关系 4

1.1.3 数据仓库的应用 6

1.2 数据仓库系统及开发工具 7

1.2.1 数据仓库系统的组成 7

1.2.2 数据仓库系统开发工具 10

1.3 商业智能和数据仓库 12

1.3.1 什么是商业智能 12

1.3.2 商业智能和数据仓库的关系 13

1.4 数据挖掘概述 14

1.4.1 数据挖掘的定义 14

1.4.2 数据挖掘的主要任务 15

1.4.3 数据挖掘的对象 15

1.4.4 数据挖掘的知识表示 16

1.4.5 数据挖掘与数据仓库及OLAP的关系 17

1.4.6 数据挖掘的应用 17

1.5 数据挖掘过程 19

1.5.1 数据挖掘步骤 19

1.5.2 数据清理 19

1.5.3 数据集成 21

1.5.4 数据变换 22

1.5.5 数据归约 23

1.5.6 离散化和概念分层生成 23

1.5.7 数据挖掘的算法 25

练习题 27

第2章 OLAP和多维数据模型 29

2.1 OLAP概述 30

2.1.1 什么是OLAP 30

2.1.2 OLAP和OLTP的区别 30

2.1.3 数据仓库与OLAP的关系 31

2.2 多维数据模型 31

2.2.1 多维数据模型的相关概念 32

2.2.2 OLAP的基本分析操作 34

2.2.3 多维数据模型的实现途径 38

2.3 数据仓库的维度建模 40

2.3.1 数据仓库建模概述 40

2.3.2 星形模型 40

2.3.3 雪花模型 41

2.3.4 事实星座模型 43

练习题 44

第3章 数据仓库设计 46

3.1 数据仓库设计概述 47

3.1.1 数据仓库设计原则 47

3.1.2 建立数据仓库系统的两种模式 47

3.1.3 数据仓库设计过程 48

3.2 数据仓库规划与需求分析 48

3.2.1 数据仓库规划 49

3.2.2 数据仓库需求分析 49

3.3 数据仓库建模 50

3.3.1 数据仓库建模的主要工作 50

3.3.2 维表设计 53

3.3.3 事实表设计 54

3.4 数据仓库物理模型设计 55

3.4.1 确定数据的存储结构 56

3.4.2 确定索引策略 56

3.4.3 确定存储分配 57

3.5 数据仓库部署与维护 57

3.5.1 数据仓库的部署 57

3.5.2 数据仓库的维护 58

练习题 58

第4章 SQL Server数据仓库开发实例 60

4.1 OnRetDW系统需求分析 61

4.1.1 OnRetDW系统的主题 61

4.1.2 OnRetDW系统的功能 62

4.2 OnRetDW的建模 62

4.2.1 维表设计 62

4.2.2 事实表设计 66

4.3 数据抽取工具设计 67

4.4 基于SQL Server 2012设计OnRetDW 75

4.4.1 创建数据仓库OnRetDW项目 75

4.4.2 创建数据源 77

4.4.3 创建数据源视图 78

4.4.4 创建维表 80

4.4.5 创建多维数据集 84

4.4.6 部署SDWS 85

4.4.7 浏览已部署的多维数据集 85

4.5 MDX简介 90

4.5.1 MDX语言概述 90

4.5.2 执行MDX查询 91

4.5.3 多维数据查询 92

练习题 95

上机实验题 96

第5章 关联分析算法 97

5.1 关联分析概述 98

5.1.1 什么是关联分析 98

5.1.2 事务数据库 98

5.1.3 关联规则及其度量 99

5.1.4 频繁项集 101

5.1.5 挖掘关联规则的基本过程 101

5.2 Apriori算法 102

5.2.1 Apriori性质 102

5.2.2 Apriori算法求频繁项集 103

5.2.3 由频繁项集产生强关联规则 108

5.3 SQL Server挖掘关联规则 109

5.3.1 创建DMK数据库 109

5.3.2 建立关联挖掘项目 110

5.3.3 部署关联挖掘项目并浏览结果 116

5.4 电子商务数据的关联规则挖掘 119

5.4.1 创建OnRetDMK数据库 119

5.4.2 数据加载功能设计 120

5.4.3 建立关联挖掘项目 121

5.4.4 部署关联挖掘项目并浏览结果 121

练习题 124

上机实验题 126

第6章 决策树分类算法 127

6.1 分类过程 128

6.1.1 分类概述 128

6.1.2 分类过程的学习阶段 128

6.1.3 分类过程的分类阶段 130

6.2 决策树分类 130

6.2.1 决策树 130

6.2.2 建立决策树的ID3算法 131

6.3 SQL Server决策树分类 139

6.3.1 建立数据表 139

6.3.2 建立决策树分类挖掘模型 140

6.3.3 浏览决策树模型和分类预测 143

6.4 电子商务数据的决策树分类 146

6.4.1 创建OnRetDMK.DST数据表 146

6.4.2 数据加载功能设计 146

6.4.3 建立决策树分类模型 148

6.4.4 浏览决策树 150

练习题 150

上机实验题 151

第7章 贝叶斯分类算法 153

7.1 贝叶斯分类概述 154

7.1.1 贝叶斯定理 154

7.1.2 贝叶斯信念网络 155

7.2 朴素贝叶斯分类 156

7.2.1 朴素贝叶斯分类原理 157

7.2.2 朴素贝叶斯分类算法 159

7.3 SQL Server朴素贝叶斯分类 161

7.3.1 建立朴素贝叶斯分类挖掘模型 161

7.3.2 浏览朴素贝叶斯分类模型和分类预测 164

7.4 电子商务数据的贝叶斯分类 168

7.4.1 建立朴素贝叶斯分类挖掘模型 168

7.4.2 浏览挖掘结果及分析 169

练习题 171

上机实验题 172

第8章 神经网络算法 173

8.1 人工神经网络概述 174

8.1.1 人工神经元 174

8.1.2 人工神经网络 176

8.1.3 神经网络应用 177

8.2 用于分类的前馈神经网络 177

8.2.1 前馈神经网络的学习过程 177

8.2.2 前馈神经网络用于分类的算法 180

8.3 SQL Server神经网络分类 184

8.3.1 建立神经网络分类挖掘模型 184

8.3.2 浏览神经网络分类模型和分类预测 186

8.4 电子商务数据的神经网络分类 189

8.4.1 建立神经网络分类挖掘模型 189

8.4.2 浏览挖掘结果及分析 189

练习题 191

上机实验题 192

第9章 回归分析算法 194

9.1 回归分析概述 195

9.2 线性回归分析 196

9.2.1 一元线性回归分析 196

9.2.2 多元线性回归分析 197

9.2.3 SQL Server线性回归分析 199

9.3 非线性回归分析 206

9.3.1 非线性回归分析的处理方法 206

9.3.2 可转换成线性回归的非线性回归 206

9.3.3 不可变换成线性回归的非线性回归分析 208

9.4 逻辑回归分析 209

9.4.1 逻辑回归原理 209

9.4.2 逻辑回归模型 210

9.4.3 SQL Server逻辑回归分析 211

9.5 电子商务数据的逻辑回归分析 218

9.5.1 建立逻辑回归挖掘模型 218

9.5.2 浏览挖掘结果及分析 219

练习题 220

上机实验题 221

第10章 时间序列分析 222

10.1 时间序列分析概述 223

10.1.1 什么是时间序列和时间序列分析 223

10.1.2 时间序列的分类和平稳性判断 224

10.1.3 时间序列建模的两种基本假设 225

10.1.4 回归分析与时间序列分析 226

10.2 确定性时间序列分析 226

10.2.1 移动平均模型 226

10.2.2 指数平滑模型 228

10.3 随机时间序列模型 230

10.3.1 随机时间序列模型概述 230

10.3.2 自回归模型AR(p) 231

10.4 SQL Server时间序列分析 232

10.4.1 建立数据表 232

10.4.2 建立时间序列分析模型 233

10.4.3 浏览时间序列分析模型 236

10.5 电子商务数据的时间序列分析 238

10.5.1 创建OnRetDMK.TS数据表 238

10.5.2 数据加载功能设计 238

10.5.3 建立时间序列分析模型 239

10.5.4 浏览时间序列分析模型 241

练习题 242

上机实验题 242

第11章 聚类算法 243

11.1 聚类概述 244

11.1.1 什么是聚类 244

11.1.2 相似性度量 245

11.1.3 聚类过程 245

11.1.4 常见的聚类算法 246

11.1.5 聚类分析的应用 246

11.2 k-均值算法及其应用 247

11.2.1 k-均值算法 247

11.2.2 SQL Server的k-均值算法应用 250

11.3 EM算法及其应用 256

11.3.1 EM算法 256

11.3.2 SQL Server中EM算法 260

11.4 电子商务数据的聚类分析 264

11.4.1 建立聚类挖掘模型 264

11.4.2 两种算法结果的比较 266

11.5 Microsoft顺序分析和聚类分析算法 269

11.5.1 Microsoft顺序分析和聚类分析算法概述 269

11.5.2 Microsoft顺序分析和聚类分析算法的应用 270

练习题 276

上机实验题 278

附录A 部分练习题参考答案 279

第1章 279

第2章 279

第3章 281

第4章 281

第5章 281

第6章 283

第7章 284

第8章 285

第9章 286

第10章 286

第11章 286

附录B 上机实验题参考答案 288

第4章 288

第5章 288

第6章 290

第7章 291

第8章 292

第9章 292

第10章 293

第11章 295

附录C 书中数据库和包含的数据表 298

1.OnRet数据库 298

2.SDW数据库 300

3.OnRetDMK数据库 301

4.DMK数据库 301

参考文献 303