数据仓库与数据挖掘原理及应用PDF电子书下载
- 电子书积分:11 积分如何计算积分?
- 作 者:王丽珍编著(云南大学信息学院)
- 出 版 社:北京:科学出版社
- 出版年份:2009
- ISBN:9787030254009
- 页数:296 页
第一篇 数据仓库与OLAP 1
第1章 数据仓库基本概念 1
1.1 从数据库到数据仓库 1
1.1.1 蜘蛛网问题 1
1.1.2 事务处理和分析处理数据环境的分离 4
1.2 什么是数据仓库 5
1.2.1 面向主题 6
1.2.2 集成 7
1.2.3 稳定性 7
1.2.4 随时间而变化 8
1.3 数据仓库与传统数据库的比较 8
1.3.1 两个系统的主要区别 8
1.3.2 两个系统的查询支持不同 9
1.3.3 两个系统数据组织模式示例比较 10
1.4 数据仓库的系统结构 11
1.4.1 三层数据仓库结构 11
1.4.2 数据仓库中的关键名词 12
1.5 数据仓库的数据组织 15
1.5.1 数据仓库的数据组织结构 15
1.5.2 数据粒度与数据分割 16
1.5.3 数据仓库的数据组织形式 17
1.5.4 数据仓库的数据追加和清理 19
1.6 小结 20
习题 20
第2章 数据仓库中的ETL和元数据 21
2.1 ETL 21
2.1.1 ETL概念 21
2.1.2 ETL作用 25
2.1.3 ETL工具 25
2.2 元数据 28
2.2.1 什么是元数据 28
2.2.2 元数据的标准化 31
2.2.3 数据仓库中的元数据管理 33
2.2.4 在数据仓库项目中使用元数据的建议 34
2.3 外部数据 35
2.3.1 外部数据和非结构化数据 35
2.3.2 元数据和外部数据 36
2.3.3 外部数据的存储 37
2.3.4 外部数据的管理 37
2.4 小结 37
习题 37
第3章 数据仓库模型设计及数据仓库建立 38
3.1 数据仓库的概念模型设计 38
3.1.1 E-R模型 38
3.1.2 面向对象的分析方法 40
3.2 数据仓库的逻辑模型设计 42
3.2.1 分析主题,确定当前要装载的主题 43
3.2.2 确定数据粒度的选择 43
3.2.3 确定数据分割策略 46
3.2.4 增加导出字段 47
3.2.5 定义关系模式 47
3.2.6 定义记录系统 48
3.3 数据仓库的物理模型设计 48
3.3.1 索引策略 48
3.3.2 数据存储策略 52
3.4 数据仓库的建立过程 54
3.4.1 需求分析 55
3.4.2 数据路线 55
3.4.3 技术路线 55
3.4.4 应用路线 56
3.4.5 数据仓库部署 57
3.4.6 运行维护 58
3.5 提高数据仓库性能 58
3.6 小结 60
习题 60
第4章 联机分析处理 62
4.1 OLAP概念 62
4.1.1 什么是OLAP 62
4.1.2 OLAP的相关基本概念 63
4.1.3 OLAP和OLTP的区别 64
4.1.4 OLAP和数据仓库的区别 65
4.2 OLAP的基本操作 65
4.2.1 数据切片 65
4.2.2 数据切块 66
4.2.3 数据上探/下钻 67
4.2.4 数据旋转 67
4.2.5 其他OLAP操作 68
4.3 OLAP的数据模型 68
4.3.1 什么是数据立方体 69
4.3.2 多维数据模型的存在形式 71
4.4 OLAP分类和服务器类型 75
4.4.1 OLAP的分类 75
4.4.2 OLAP的三层客户/服务器结构 76
4.4.3 ROLAP服务器 76
4.4.4 MOLAP服务器 77
4.4.5 HOLAP服务器 77
4.5 基于多维数据库的OLAP(MOLAP) 78
4.5.1 多维数据库 78
4.5.2 维的分类 79
4.5.3 多维数据库存储 80
4.6 基于关系数据库的OLAP(ROLAP) 81
4.6.1 维表和事实表 81
4.6.2 ROLAP与MOLAP比较 84
4.7 OLAP实现 86
4.7.1 数据立方体的有效计算 86
4.7.2 索引OLAP数据 87
4.7.3 OLAP查询的有效处理 89
4.7.4 OLAP的前端展现 90
4.8 OLAP的衡量和特性 93
4.8.1 OLAP的12准则 93
4.8.2 OLAP的简洁准则(OLAP的特性) 95
4.9 小结 96
习题 96
第二篇 数据挖掘与空间数据挖掘 97
第5章 数据挖掘概念与数据预处理 97
5.1 数据挖掘概述 97
5.2 数据挖掘分类 99
5.2.1 概述 99
5.2.2 描述性挖掘 99
5.2.3 预测性挖掘 102
5.3 数据挖掘系统 104
5.3.1 数据挖掘系统的结构 104
5.3.2 数据挖掘系统的设计 105
5.3.3 数据挖掘系统的发展 106
5.4 数据预处理 107
5.4.1 数据清理 107
5.4.2 数据集成 108
5.4.3 数据变换 109
5.4.4 数据归约 110
5.4.5 属性概念分层的自动生成 112
5.5 数据挖掘与数据仓库 114
5.6 数据挖掘的应用和发展 115
5.6.1 数据挖掘的应用 115
5.6.2 数据挖掘未来研究方向 117
5.7 小结 118
习题 118
第6章 关联分析 119
6.1 问题定义 120
6.2 Apriori算法 121
6.2.1 频繁项集产生 121
6.2.2 规则产生 125
6.2.3 Apriori算法 127
6.3 频繁项集的紧凑表示 129
6.3.1 最大频繁项集 129
6.3.2 频繁闭项集 131
6.4 FP-growth算法 133
6.4.1 FP树构造 134
6.4.2 频繁项集产生 135
6.4.3 FP-growth算法 136
6.5 小结 137
习题 138
第7章 聚类分析 139
7.1 概述 139
7.1.1 聚类概念 139
7.1.2 相似性测度 139
7.1.3 聚类过程 140
7.1.4 聚类算法的分类 141
7.2 k均值算法 143
7.2.1 误差平方和准则 143
7.2.2 k均值算法 143
7.3 BIRCH算法 145
7.3.1 聚类特征 145
7.3.2 CF树 146
7.3.3 CF树的构造 146
7.3.4 BIRCH算法 147
7.4 DBSCAN算法 147
7.4.1 相关概念 147
7.4.2 DBSCAN算法 150
7.5 STING算法 151
7.5.1 层次结构 151
7.5.2 参数产生 152
7.5.3 查询类型 153
7.5.4 相关单元和非相关单元 154
7.5.5 STING算法 155
7.6 EM算法 156
7.6.1 隶属概率及新均值计算 156
7.6.2 EM算法 157
7.7 小结 158
习题 158
第8章 分类与预测 160
8.1 分类过程 160
8.2 决策树分类 162
8.2.1 决策树 162
8.2.2 建立决策树 163
8.2.3 提取分类规则 167
8.2.4 对新样本分类 168
8.3 前馈神经网络分类 168
8.3.1 前馈神经网络 168
8.3.2 学习前馈神经网络 170
8.3.3 神经网络分类 173
8.4 贝叶斯分类 174
8.4.1 贝叶斯分类概述 174
8.4.2 朴素贝叶斯分类 176
8.4.3 树增强朴素贝叶斯分类 178
8.5 回归分析 180
8.5.1 一元回归分析 180
8.5.2 多元回归分析 183
8.5.3 非线性回归 185
8.6 小结 186
习题 186
第9章 异常检测 188
9.1 概述 188
9.1.1 异常概念 188
9.1.2 异常的成因 188
9.1.3 异常检测方法 189
9.2 基于距离的异常检测 190
9.2.1 嵌套-循环算法 190
9.2.2 基于单元的算法 192
9.3 基于密度的异常检测 197
9.3.1 相关概念 198
9.3.2 基于密度的异常检测算法 199
9.4 基于图的异常检测 200
9.4.1 相关概念 200
9.4.2 测试参数的计算 201
9.4.3 指定路径上的空间异常检测算法 201
9.5 小结 202
习题 202
第10章 空间数据挖掘 204
10.1 空间数据挖掘简介 204
10.1.1 空间数据挖掘的产生 204
10.1.2 空间数据的特点 205
10.1.3 空间数据挖掘的过程 206
10.1.4 空间数据挖掘的分类 206
10.2 空间关联规则挖掘 207
10.2.1 空间关联规则挖掘的相关概念 208
10.2.2 自顶向下,逐步求精的空间关联规则挖掘算法 213
10.3 空间co-location模式挖掘 218
10.3.1 空间co-location模式的基本概念 218
10.3.2 基于完全连接的co-location模式挖掘算法 220
10.4 小结 226
习题 226
第三篇 工具与实例 227
第11章 数据挖掘工具及可视化 227
11.1 数据挖掘工具简介 227
11.1.1 数据挖掘产品 227
11.1.2 评价数据挖掘产品的标准 230
11.2 Weka 232
11.2.1 WekaExplorer 233
11.2.2 Experimenter 241
11.2.3 KnowledgeFlow 244
11.3 数据挖掘的可视化 246
11.3.1 数据挖掘可视化的过程与方法 246
11.3.2 数据挖掘可视化的分类 247
11.3.3 数据挖掘可视化的工具 250
11.4 小结 252
习题 252
第12章 COGNOS介绍 253
12.1 Cognos公司BI主要产品介绍 253
12.1.1 数据查询和即席报表生成工具 254
12.1.2 模型建立工具 258
12.1.3 在线分析处理及展现工具 261
12.2 Cognos应用例子 263
12.2.1 报表的生成 264
12.2.2 Cube的构造 267
12.3 小结 270
习题 271
第13章 企业数据仓库系统构建 272
13.1 系统介绍 272
13.1.1 系统建设的背景 272
13.1.2 系统定位和总体结构 272
13.2 系统分析与设计 275
13.2.1 系统需求分析 275
13.2.2 系统模型设计 277
13.2.3 系统的ETL设计 277
13.3 系统实现 278
13.3.1 数据上载 278
13.3.2 立方体聚集和多立方体 284
13.3.3 处理链 285
13.3.4 系统的配置和管理 286
13.4 数据(报表)展示和接口探讨 286
13.4.1 数据(报表)的展示 287
13.4.2 SAPBW数据仓库接口程序的开发和实现 291
13.5 小结 293
习题 293
主要参考文献 295
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《穿越数据的迷宫 数据管理执行指南》Laura Sebastian-Coleman 2020
- 《大数据环境下的信息管理方法技术与服务创新丛书 俄罗斯档案事业改革与发展研究》徐胡乡责编;肖秋会 2019
- 《Access数据库系统设计与应用教程》李勇帆,廖瑞华主编 2019
- 《并行数据挖掘及性能优化》荀亚玲著 2020
- 《市政工程基础》杨岚编著 2009
- 《家畜百宝 猪、牛、羊、鸡的综合利用》山西省商业厅组织技术处编著 1959
- 《《道德经》200句》崇贤书院编著 2018
- 《高级英语阅读与听说教程》刘秀梅编著 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《看图自学吉他弹唱教程》陈飞编著 2019
- 《法语词汇认知联想记忆法》刘莲编著 2020
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《国家社科基金项目申报规范 技巧与案例 第3版 2020》文传浩,夏宇编著 2019
- 《流体力学》张扬军,彭杰,诸葛伟林编著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《《走近科学》精选丛书 中国UFO悬案调查》郭之文 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《中医骨伤科学》赵文海,张俐,温建民著 2017
- 《美国小学分级阅读 二级D 地球科学&物质科学》本书编委会 2016
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《强磁场下的基础科学问题》中国科学院编 2020
- 《小牛顿科学故事馆 进化论的故事》小牛顿科学教育公司编辑团队 2018
- 《小牛顿科学故事馆 医学的故事》小牛顿科学教育公司编辑团队 2018
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019