数据仓库与数据挖掘PDF电子书下载
- 电子书积分:13 积分如何计算积分?
- 作 者:武森等著
- 出 版 社:北京:冶金工业出版社
- 出版年份:2003
- ISBN:7502432949
- 页数:379 页
目录 1
1 数据仓库概述 1
1.1 数据仓库的产生 1
1.2 数据仓库的含义 3
1.3 数据仓库的特征 5
1.4 操作型数据库系统与数据仓库 7
1.5 数据仓库的基本结构 9
本章要点 11
2 数据仓库相关概念 12
2.1 主题 12
2.2 粒度 13
2.3 维度 15
2.4 数据立方体 17
2.5 联机分析处理 20
2.6 数据集市 23
本章要点 25
3 多维数据模型 27
3.1 实体-关系模型与多维模型 27
3.1.1 实体-关系模型 27
3.1.2 多维数据模型 28
3.1.3 多维数据模型的优势 30
3.2 星形模式 32
3.2.1 星形模式的含义 32
3.2.2 主码、外码和代理码 34
3.2.3 事实表 36
3.2.4 维表 38
3.3 星形模式的种类 39
3.3.1 简单星形模式 39
3.3.2 星系模式 39
3.3.3 星座模式 41
3.3.4 二级维表 42
3.3.5 雪花模式 42
3.4 数据仓库的总线型结构 44
3.4.1 总线型结构的含义 44
3.4.2 统一的维 45
3.4.3 统一的事实 46
3.4.4 数据仓库的总线 47
本章要点 49
4 数据仓库的体系结构 51
4.1 体系结构的内容 51
4.1.1 总体框架 51
4.1.2 技术体系结构 52
4.2 相关的数据存储 54
4.2.1 数据源 55
4.2.2 主题数据 56
4.2.3 预处理数据 58
4.2.4 查询服务数据 60
4.3 相关的数据服务 61
4.3.1 后台数据预处理 61
4.3.2 前台数据查询服务 62
4.4 相关的数据管理——元数据 64
4.4.1 元数据的含义 64
4.4.2 元数据的内容 65
4.4.3 元数据的工作流程 67
本章要点 69
5 数据仓库的数据组织 71
5.1 事实表和维表的设计 71
5.1.1 事实数据和维数据的区分 71
5.1.2 事实表的设计 72
5.1.4 常见维设计举例 75
5.1.3 维表的设计 75
5.2 数据聚集的设计 79
5.2.1 数据聚集的含义 79
5.2.2 数据聚集的创建方法 80
5.3 数据仓库中的索引 82
5.3.1 传统的数据库索引技术 82
5.3.2 事实表的索引 84
5.3.3 维表的索引 85
5.3.4 数据仓库索引举例 86
5.3.5 数据仓库索引新技术 88
5.4 数据库的物理设计 91
5.4.1 物理设计的内容 91
5.4.2 数据库对象的命名规范 92
5.4.3 物理模型的建立 93
5.4.4 数据仓库的数据量估计 95
本章要点 96
6 数据仓库的数据预处理 98
6.1 数据的净化 98
6.1.1 数据质量与数据净化 98
6.1.2 数据净化的方法 100
6.1.3 其他提高数据质量的方法 102
6.2 数据预处理计划 104
6.2.1 初步计划 104
6.2.2 详细计划 106
6.3 维表的数据预处理 108
6.3.1 维表的基本数据预处理 108
6 3.2 代理码的分配 110
6.3.3 维表的变更处理 111
6.4 事实表的数据预处理 113
6.4.1 事实表的基本数据预处理 113
6.4.2 非代理码的替换 115
6.4.3 数据聚集的更新维护 116
本章要点 117
7 联机分析处理——OLAP 119
7.1 基于多维模型的数据分析 119
7.1.1 OLAP的含义与特征 119
7.1.2 OLAP的基本操作 120
7.2 数据仓库建设与OLAP应用例 123
7.2.1 订货分析主题 123
7.2.2 数据源分析 124
7.2.3 订货分析的星形模式 125
7.2.4 订货分析的DTS包 130
7.2.5 订货分析的OLAP实践 135
本章要点 138
8 数据仓库的规划与管理 139
8.1 数据仓库系统的生命周期 139
8.2 项目的准备 141
8.3 项目团队的组织 142
8.4 项目的进度安排 144
8.5 项目的文档管理 145
本章要点 146
9 数据挖掘概述 148
9.1 KDD与数据挖掘 148
9.2 KDD过程 150
9.3 数据挖掘的任务 152
9.4 数据仓库与数据挖掘 153
本章要点 155
10 数据挖掘的数据准备 157
10.1 数据准备概述 157
10.1.1 数据准备的内容 157
10.1.2 与数据仓库的比较 159
10.2.1 异常值处理 161
10.2 数据的应用变换 161
10.2.2 数据标准化 164
10.2.3 数据泛化 166
10.2.4 数据聚集 169
10.3 数据的精简 170
10.3.1 属性子集选择 170
10.3.2 主成分分析 171
10.3.3 离散小波转换 172
10.3.4 回归方法 174
10.3.5 数据抽样 175
本章要点 177
11 聚类分析 179
11.1 聚类分析概述 179
11.1.1 聚类分析的含义 179
11.1.2 聚类方法的分类 180
11.1.3 数据挖掘应用对聚类分析的要求 181
11.2 差异度的计算方法 183
11.2.1 区间变量 183
11.2.2 二态变量 184
11.2.3 分类变量 186
11.2.4 序数变量 187
11.2.5 计算中的其他问题 188
11.3 分割聚类方法 190
11.3.1 分割聚类方法概述 190
11.3.2 k means算法 191
11.3.3 PAM算法 194
11.3.4 CLARA算法 196
11.3.5 CLARANS算法 197
11.4 层次聚类方法 200
11.4.1 层次聚类方法概述 200
11.4.2 层次聚类基本算法 202
11.4.3 BIRCH算法 204
11.4.4 CURE算法 208
11.5 基于密度的聚类方法 211
11.5.1 基于密度的聚类方法概述 211
11.5.2 DBSCAN算法 213
11.5.3 OPTICS算法 215
11.5.4 基于密度和网格的CLIQUE算法 218
11.6 高维稀疏聚类CABOSFV算法 221
11.6.1 算法的主要思想 221
11.6.2 算法的概念基础 223
11.6.3 算法的聚类过程 225
11.6.4 算法举例 227
本章要点 231
12.1.1 分类发现的含义与过程 233
12.1 分类发现概述 233
12 分类发现 233
12.1.2 分类模型的评估标准 234
12.1.3 分类发现的主要方法 236
12.2 决策树算法 237
12.2.1 决策树算法概述 237
12.2.2 决策树的生成 238
12.2.3 决策树生成举例 240
12.2.4 决策树剪枝举例 243
12.2.5 从决策树中提取规则 244
12.3 ID3算法 245
12.3.1 ID3算法的决策属性选择方法 245
12.3.2 ID3算法示例 246
12.3.3 树的剪枝 249
12.3.4 ID3的几种改进方法 250
12.4 ID3改进算法CAMM 251
12.4.1 CAMM算法的概念基础 252
12.4.2 CAMM算法的处理过程 254
12.4.3 CAMM算法决策树生成举例 255
12.4.4 CAMM算法的规则提取 259
12.4.5 决策树算法与数据仓库技术的集成 261
12.5 贝叶斯分类 264
12.5.1 贝叶斯原理 265
12.5.2 简单贝叶斯分类 266
12.5.3 贝叶斯信念网络 269
12.6 基于神经网络BP算法的分类 271
12.6.1 多层前馈神经网络 271
12.6.2 BP算法 273
12.6.3 BP算法的解释 275
12.6.4 其他分类算法 276
本章要点 278
13.1.1 关联规则的基本概念 281
13 关联规则发现 281
13.1 关联规则概述 281
13.1.2 描述关联规则的参数 282
13.1.3 关联规则分类 285
13.1.4 发现关联规则的过程 286
13.2 Apriori算法 286
13.2.1 Apriori算法概述 287
13.2.2 Apriori性质与算法步骤 288
13.2.3 Apriori算法举例 290
13.2.4 由频繁集产生关联规则 293
13.2.5 Apriori算法的几种优化方法 294
13.3 FP-growth方法 297
13.3.1 FP-growth方法的概念与步骤 297
13.3.2 FP-tree的建立 298
13.3.3 在FP-tree上挖掘关联规则 299
13.4 多层与多维关联规则 302
13.4.1 概念树 302
13.4.2 自上而下挖掘多层关联规则 303
13.4.3 自下而上挖掘多层关联规则 307
13.4.4 多维关联规则 310
13.4.5 数值属性的离散化 311
13.5 具有利润约束的关联规则 314
13.5.1 利润约束 315
13.5.2 具有利润约束的频繁集 316
13.5.3 具有利润约束的关联规则发现算法 318
13.5.4 算法示例 320
13.5.5 其他约束条件 322
本章要点 325
14.1.1 分布式数据挖掘简介 327
14.1 分布式数据挖掘 327
14 数据挖掘的发展与应用 327
14.1.2 分布式数据挖掘系统 329
14.1.3 研究现状 331
14.2 分布式数据挖掘算法 332
14.2.1 分布式关联规则 333
14.2.2 分布式分类算法 337
14.3 数据挖掘软件发展 340
14.3.1 系统功能的发展 341
14.3.2 应用模式的发展 342
14.4 数据挖掘标准 344
14.4.1 过程标准 344
14.4.2 实现标准 351
本章要点 358
名词索引 360
参考文献 372
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《穿越数据的迷宫 数据管理执行指南》Laura Sebastian-Coleman 2020
- 《大数据环境下的信息管理方法技术与服务创新丛书 俄罗斯档案事业改革与发展研究》徐胡乡责编;肖秋会 2019
- 《Access数据库系统设计与应用教程》李勇帆,廖瑞华主编 2019
- 《并行数据挖掘及性能优化》荀亚玲著 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017
- 《新工业时代 世界级工业家张毓强和他的“新石头记”》秦朔 2019
- 《智能制造高技能人才培养规划丛书 ABB工业机器人虚拟仿真教程》(中国)工控帮教研组 2019
- 《陶瓷工业节能减排技术丛书 陶瓷工业节能减排与污染综合治理》罗民华著 2017
- 《全国职业院校工业机器人技术专业规划教材 工业机器人现场编程》(中国)项万明 2019