数据仓库与数据挖掘应用教程PDF电子书下载
- 电子书积分:12 积分如何计算积分?
- 作 者:李春葆,蒋林,陈良臣,喻丹丹,曾平编著
- 出 版 社:北京:清华大学出版社
- 出版年份:2016
- ISBN:9787302430773
- 页数:303 页
第1章 数据仓库和数据挖掘概述 1
1.1 数据仓库概述 2
1.1.1 数据仓库的定义 2
1.1.2 数据仓库与操作型数据库的关系 4
1.1.3 数据仓库的应用 6
1.2 数据仓库系统及开发工具 7
1.2.1 数据仓库系统的组成 7
1.2.2 数据仓库系统开发工具 10
1.3 商业智能和数据仓库 12
1.3.1 什么是商业智能 12
1.3.2 商业智能和数据仓库的关系 13
1.4 数据挖掘概述 14
1.4.1 数据挖掘的定义 14
1.4.2 数据挖掘的主要任务 15
1.4.3 数据挖掘的对象 15
1.4.4 数据挖掘的知识表示 16
1.4.5 数据挖掘与数据仓库及OLAP的关系 17
1.4.6 数据挖掘的应用 17
1.5 数据挖掘过程 19
1.5.1 数据挖掘步骤 19
1.5.2 数据清理 19
1.5.3 数据集成 21
1.5.4 数据变换 22
1.5.5 数据归约 23
1.5.6 离散化和概念分层生成 23
1.5.7 数据挖掘的算法 25
练习题 27
第2章 OLAP和多维数据模型 29
2.1 OLAP概述 30
2.1.1 什么是OLAP 30
2.1.2 OLAP和OLTP的区别 30
2.1.3 数据仓库与OLAP的关系 31
2.2 多维数据模型 31
2.2.1 多维数据模型的相关概念 32
2.2.2 OLAP的基本分析操作 34
2.2.3 多维数据模型的实现途径 38
2.3 数据仓库的维度建模 40
2.3.1 数据仓库建模概述 40
2.3.2 星形模型 40
2.3.3 雪花模型 41
2.3.4 事实星座模型 43
练习题 44
第3章 数据仓库设计 46
3.1 数据仓库设计概述 47
3.1.1 数据仓库设计原则 47
3.1.2 建立数据仓库系统的两种模式 47
3.1.3 数据仓库设计过程 48
3.2 数据仓库规划与需求分析 48
3.2.1 数据仓库规划 49
3.2.2 数据仓库需求分析 49
3.3 数据仓库建模 50
3.3.1 数据仓库建模的主要工作 50
3.3.2 维表设计 53
3.3.3 事实表设计 54
3.4 数据仓库物理模型设计 55
3.4.1 确定数据的存储结构 56
3.4.2 确定索引策略 56
3.4.3 确定存储分配 57
3.5 数据仓库部署与维护 57
3.5.1 数据仓库的部署 57
3.5.2 数据仓库的维护 58
练习题 58
第4章 SQL Server数据仓库开发实例 60
4.1 OnRetDW系统需求分析 61
4.1.1 OnRetDW系统的主题 61
4.1.2 OnRetDW系统的功能 62
4.2 OnRetDW的建模 62
4.2.1 维表设计 62
4.2.2 事实表设计 66
4.3 数据抽取工具设计 67
4.4 基于SQL Server 2012设计OnRetDW 75
4.4.1 创建数据仓库OnRetDW项目 75
4.4.2 创建数据源 77
4.4.3 创建数据源视图 78
4.4.4 创建维表 80
4.4.5 创建多维数据集 84
4.4.6 部署SDWS 85
4.4.7 浏览已部署的多维数据集 85
4.5 MDX简介 90
4.5.1 MDX语言概述 90
4.5.2 执行MDX查询 91
4.5.3 多维数据查询 92
练习题 95
上机实验题 96
第5章 关联分析算法 97
5.1 关联分析概述 98
5.1.1 什么是关联分析 98
5.1.2 事务数据库 98
5.1.3 关联规则及其度量 99
5.1.4 频繁项集 101
5.1.5 挖掘关联规则的基本过程 101
5.2 Apriori算法 102
5.2.1 Apriori性质 102
5.2.2 Apriori算法求频繁项集 103
5.2.3 由频繁项集产生强关联规则 108
5.3 SQL Server挖掘关联规则 109
5.3.1 创建DMK数据库 109
5.3.2 建立关联挖掘项目 110
5.3.3 部署关联挖掘项目并浏览结果 116
5.4 电子商务数据的关联规则挖掘 119
5.4.1 创建OnRetDMK数据库 119
5.4.2 数据加载功能设计 120
5.4.3 建立关联挖掘项目 121
5.4.4 部署关联挖掘项目并浏览结果 121
练习题 124
上机实验题 126
第6章 决策树分类算法 127
6.1 分类过程 128
6.1.1 分类概述 128
6.1.2 分类过程的学习阶段 128
6.1.3 分类过程的分类阶段 130
6.2 决策树分类 130
6.2.1 决策树 130
6.2.2 建立决策树的ID3算法 131
6.3 SQL Server决策树分类 139
6.3.1 建立数据表 139
6.3.2 建立决策树分类挖掘模型 140
6.3.3 浏览决策树模型和分类预测 143
6.4 电子商务数据的决策树分类 146
6.4.1 创建OnRetDMK.DST数据表 146
6.4.2 数据加载功能设计 146
6.4.3 建立决策树分类模型 148
6.4.4 浏览决策树 150
练习题 150
上机实验题 151
第7章 贝叶斯分类算法 153
7.1 贝叶斯分类概述 154
7.1.1 贝叶斯定理 154
7.1.2 贝叶斯信念网络 155
7.2 朴素贝叶斯分类 156
7.2.1 朴素贝叶斯分类原理 157
7.2.2 朴素贝叶斯分类算法 159
7.3 SQL Server朴素贝叶斯分类 161
7.3.1 建立朴素贝叶斯分类挖掘模型 161
7.3.2 浏览朴素贝叶斯分类模型和分类预测 164
7.4 电子商务数据的贝叶斯分类 168
7.4.1 建立朴素贝叶斯分类挖掘模型 168
7.4.2 浏览挖掘结果及分析 169
练习题 171
上机实验题 172
第8章 神经网络算法 173
8.1 人工神经网络概述 174
8.1.1 人工神经元 174
8.1.2 人工神经网络 176
8.1.3 神经网络应用 177
8.2 用于分类的前馈神经网络 177
8.2.1 前馈神经网络的学习过程 177
8.2.2 前馈神经网络用于分类的算法 180
8.3 SQL Server神经网络分类 184
8.3.1 建立神经网络分类挖掘模型 184
8.3.2 浏览神经网络分类模型和分类预测 186
8.4 电子商务数据的神经网络分类 189
8.4.1 建立神经网络分类挖掘模型 189
8.4.2 浏览挖掘结果及分析 189
练习题 191
上机实验题 192
第9章 回归分析算法 194
9.1 回归分析概述 195
9.2 线性回归分析 196
9.2.1 一元线性回归分析 196
9.2.2 多元线性回归分析 197
9.2.3 SQL Server线性回归分析 199
9.3 非线性回归分析 206
9.3.1 非线性回归分析的处理方法 206
9.3.2 可转换成线性回归的非线性回归 206
9.3.3 不可变换成线性回归的非线性回归分析 208
9.4 逻辑回归分析 209
9.4.1 逻辑回归原理 209
9.4.2 逻辑回归模型 210
9.4.3 SQL Server逻辑回归分析 211
9.5 电子商务数据的逻辑回归分析 218
9.5.1 建立逻辑回归挖掘模型 218
9.5.2 浏览挖掘结果及分析 219
练习题 220
上机实验题 221
第10章 时间序列分析 222
10.1 时间序列分析概述 223
10.1.1 什么是时间序列和时间序列分析 223
10.1.2 时间序列的分类和平稳性判断 224
10.1.3 时间序列建模的两种基本假设 225
10.1.4 回归分析与时间序列分析 226
10.2 确定性时间序列分析 226
10.2.1 移动平均模型 226
10.2.2 指数平滑模型 228
10.3 随机时间序列模型 230
10.3.1 随机时间序列模型概述 230
10.3.2 自回归模型AR(p) 231
10.4 SQL Server时间序列分析 232
10.4.1 建立数据表 232
10.4.2 建立时间序列分析模型 233
10.4.3 浏览时间序列分析模型 236
10.5 电子商务数据的时间序列分析 238
10.5.1 创建OnRetDMK.TS数据表 238
10.5.2 数据加载功能设计 238
10.5.3 建立时间序列分析模型 239
10.5.4 浏览时间序列分析模型 241
练习题 242
上机实验题 242
第11章 聚类算法 243
11.1 聚类概述 244
11.1.1 什么是聚类 244
11.1.2 相似性度量 245
11.1.3 聚类过程 245
11.1.4 常见的聚类算法 246
11.1.5 聚类分析的应用 246
11.2 k-均值算法及其应用 247
11.2.1 k-均值算法 247
11.2.2 SQL Server的k-均值算法应用 250
11.3 EM算法及其应用 256
11.3.1 EM算法 256
11.3.2 SQL Server中EM算法 260
11.4 电子商务数据的聚类分析 264
11.4.1 建立聚类挖掘模型 264
11.4.2 两种算法结果的比较 266
11.5 Microsoft顺序分析和聚类分析算法 269
11.5.1 Microsoft顺序分析和聚类分析算法概述 269
11.5.2 Microsoft顺序分析和聚类分析算法的应用 270
练习题 276
上机实验题 278
附录A 部分练习题参考答案 279
第1章 279
第2章 279
第3章 281
第4章 281
第5章 281
第6章 283
第7章 284
第8章 285
第9章 286
第10章 286
第11章 286
附录B 上机实验题参考答案 288
第4章 288
第5章 288
第6章 290
第7章 291
第8章 292
第9章 292
第10章 293
第11章 295
附录C 书中数据库和包含的数据表 298
1.OnRet数据库 298
2.SDW数据库 300
3.OnRetDMK数据库 301
4.DMK数据库 301
参考文献 303
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《穿越数据的迷宫 数据管理执行指南》Laura Sebastian-Coleman 2020
- 《大数据环境下的信息管理方法技术与服务创新丛书 俄罗斯档案事业改革与发展研究》徐胡乡责编;肖秋会 2019
- 《Access数据库系统设计与应用教程》李勇帆,廖瑞华主编 2019
- 《并行数据挖掘及性能优化》荀亚玲著 2020
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019