数据仓库与数据挖掘技术PDF电子书下载
- 电子书积分:11 积分如何计算积分?
- 作 者:孙水华,赵钊林,刘建华编著
- 出 版 社:北京:清华大学出版社
- 出版年份:2012
- ISBN:9787302281665
- 页数:274 页
第1章 数据仓库与数据挖掘概述 1
1.1数据仓库的产生与发展 1
1.1.1数据仓库的产生 1
1.1.2数据仓库的发展 2
1.1.3数据仓库的研究与开发现状 2
1.1.4数据仓库的作用 4
1.2数据仓库的基本概念 4
1.2.1数据仓库的定义与基本特性 5
1.2.2数据仓库与数据库的区别 6
1.2.3数据仓库数据的组织架构 7
1.3数据仓库的体系结构 8
1.3.1虚拟的数据仓库体系结构 9
1.3.2单独的数据仓库体系结构 9
1.3.3单独的数据集市体系结构 10
1.3.4分布式数据仓库结构 10
1.4数据仓库的相关概念 11
1.4.1数据源 11
1.4.2数据的存储层 12
1.4.3 OLAP服务器 14
1.4.4前端工具 14
1.5数据挖掘技术概述 15
1.5.1数据挖掘技术产生的背景 15
1.5.2数据挖掘的基本概念 16
1.5.3数据挖掘的对象 17
1.5.4数据挖掘功能 18
1.5.5数据挖掘与传统分析方法的区别 21
1.5.6数据仓库与数据挖掘的关系 21
1.5.7数据挖掘的发展趋势 22
1.6数据挖掘过程 23
1.6.1 Fayyad过程模型 23
1.6.2 CRISP-DM过程模型 25
1.6.3其他数据挖掘过程模型 26
1.7常用的数据挖掘技术 27
1.8小结 29
1.9习题 29
第2章 数据仓库开发模型 31
2.1数据仓库开发模型概述 31
2.2数据仓库的概念模型 32
2.2.1企业模型的建立 32
2.2.2规范的数据模型 34
2.2.3常见的概念模型 38
2.3数据仓库的逻辑模型 42
2.3.1事实表模型设计 43
2.3.2维度表模型设计 44
2.4数据仓库的物理模型 46
2.4.1物理模型的设计要点 46
2.4.2数据仓库物理模型的存储结构 47
2.4.3数据仓库物理模型的索引构建 49
2.4.4数据仓库物理模型的优化问题 49
2.5数据仓库的元数据模型 51
2.5.1元数据的类型 51
2.5.2元数据的作用 53
2.5.3元数据的收集与维护 54
2.5.4元数据的使用 57
2.5.5元数据管理模型 57
2.6数据仓库的粒度和聚集模型 59
2.6.1数据仓库粒度模型 59
2.6.2数据仓库聚集模型与数据分割 60
2.7小结 61
2.8习题 61
第3章ETL技术 63
3.1 ETL相关概念 64
3.1.1数据理解 64
3.1.2数据抽取 64
3.1.3数据清洗 65
3.1.4数据转换 65
3.1.5数据加载 66
3.2 ETL过程建模 66
3.2.1 ETL系统面临的挑战 66
3.2.2 ETL过程描述 67
3.2.3 ETL概念模型 67
3.2.4 ETL逻辑模型 68
3.3 ETL增量抽取机制 69
3.4 ETL过程数据质量控制 71
3.4.1数据质量问题分类 71
3.4.2数据质量控制技术 72
3.5 ETL并行处理技术 74
3.6小结 76
3.7习题 76
第4章OLAP技术 78
4.1 OLAP概述 78
4.1.1 OLAP的定义 78
4.1.2数据仓库与数据分析的关系 79
4.1.3多维分析的基本概念 80
4.1.4 OLAP的多维数据分析 83
4.1.5 OLAP与OLTP的比较 85
4.2多维数据库及其存储 86
4.2.1多维数据库 86
4.2.2多维数据库的数据存储 88
4.2.3多维数据库与数据仓库 88
4.3 OLAP的类型 89
4.3.1多维OLAP 90
4.3.2关系OLAP 91
4.3.3混合型OLAP 96
4.3.4 MOLAP与ROLAP的比较 96
4.4 OLAP的体系结构 97
4.5 OLAP中的索引技术 98
4.5.1 B-Tree索引 98
4.5.2位图索引 99
4.5.3位图索引的扩展——标识符索引 102
4.5.4索引性能比较 103
4.5.5索引的选择 104
4.6 OLAP的评价标准 104
4.6.1 OLAP的衡量标准 104
4.6.2 OLAP服务器和工具的评价标准 106
4.7 OLAP的前端展现 108
4.7.1 OLAP工具 108
4.7.2 OLAP结果的展现方法 109
4.8小结 111
4.9习题 111
第5章 商务智能系统 113
5.1商务智能概述 113
5.1.1商务智能的概念 113
5.1.2商务智能的发展历程 114
5.1.3商务智能的商业效益 114
5.2商务智能系统架构 115
5.2.1商务智能系统的核心技术 115
5.2.1商务智能的体系结构 116
5.3商务智能系统的功能 117
5.4商务智能系统的应用 118
5.4.1商务智能系统特点 118
5.4.2我国商务智能系统应用现状分析 118
5.5小结 119
5.6习题 120
第6章 数据预处理技术 121
6.1数据预处理概述 121
6.1.1数据预处理的必要性 121
6.1.2数据预处理的基本方法 122
6.1.3数据预处理的研究现状 124
6.2数据清理 124
6.2.1填充缺失值 125
6.2.2光滑噪声数据 125
6.2.3数据清理过程 126
6.3数据集成 127
6.4数据变换 128
6.5数据归约 130
6.5.1数据立方体聚集 130
6.5.2属性子集选择 130
6.5.3维度归约 131
6.5.4数值归约 132
6.5.5数据离散化与概念分层 134
6.6小结 136
6.7习题 136
第7章 数据挖掘技术 138
7.1概念描述 138
7.1.1概念描述的生成过程 138
7.1.2概念分层与数据泛化 139
7.1.3概念分层方法 139
7.1.4数据泛化方法 142
7.1.5泛化的表示 145
7.1.6属性相关分析 146
7.1.7区别性描述 146
7.2关联规则 147
7.2.1关联规则相关概念 147
7.2.2关联规则挖掘步骤 148
7.2.3关联规则分类 149
7.2.4关联规则的算法 150
7.3数据分类 156
7.3.1数据分类的基本步骤与评价准则 156
7.3.2决策树 158
7.3.3贝叶斯分类 164
7.3.4神经网络方法 165
7.3.5近邻分类方法 171
7.4数据聚类 173
7.4.1聚类分析概述 173
7.4.2聚类算法的分类及其典型算法 174
7.4.3聚类分析中的相似度度量方法 176
7.4.4聚类分析中的聚类准则函数 177
7.4.5 k-means聚类算法 178
7.5遗传算法 181
7.5.1遗传算法的基本术语 181
7.5.2遗传算法的执行过程 182
7.5.3遗传算法应用举例 184
7.5.4遗传算法的基本要素 185
7.5.5遗传算法的特点及应用领域 188
7.6粗糙集 190
7.6.1粗糙集理论的相关概念 190
7.6.2粗糙集的应用举例 191
7.6.3粗糙集理论研究的对象及特点 192
7.7小结 193
7.8习题 194
第8章 数据仓库开发实例 196
8.1 SQL Server 2005所提供的数据仓库功能 196
8.1.1 SQL Server 2005 Integration Services 197
8.1.2 SQL Server 2005 Analysis Services 197
8.1.3 SQL Server 2005 DW工具 197
8.2福马特商店销售分析数据仓库系统的分析与设计 198
8.3数据仓库的实现 199
8.3.1 SQL Server的数据仓库创建 199
8.3.2 OLAP的实施 204
8.3.3数据仓库中的数据挖掘 209
8.4数据仓库的应用与管理 213
8.4.1数据仓库的用户 213
8.4.2数据仓库应用案例 213
8.4.3数据仓库的运行技术管理 224
8.4.4数据仓库应用中的法律问题 227
8.4.5数据仓库的成本与效益分析 227
8.5小结 228
8.6习题 228
第9章 报表设计 230
9.1报表概述 230
9.1.1报表结构 230
9.1.2传递报表 232
9.1.3 Report Server功能结构 233
9.1.4 Report Services的组成部分 234
9.2报表向导制作报表 236
9.2.1向导制作报表 237
9.2.2报表设计器 246
9.2.3部署报表 247
9.3编辑制作报表 248
9.3.1新建报表项目 248
9.3.2新建数据集 248
9.3.3报表格式设计 250
9.3.4分组 251
9.3.5钻取功能 254
9.3.6文档结构图 254
9.4矩阵式报表 255
9.4.1数据集建立 256
9.4.2矩阵布局 257
9.4.3矩形布局 258
9.4.4折叠结构 259
9.5统计图表 260
9.5.1图表元素 260
9.5.2柱形图 260
9.5.3折线图 266
9.5.4饼图 270
9.5.5圆环图 270
9.6主体的多列 271
9.7小结 272
9.8实验 272
参考文献 273
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《穿越数据的迷宫 数据管理执行指南》Laura Sebastian-Coleman 2020
- 《大数据环境下的信息管理方法技术与服务创新丛书 俄罗斯档案事业改革与发展研究》徐胡乡责编;肖秋会 2019
- 《Access数据库系统设计与应用教程》李勇帆,廖瑞华主编 2019
- 《并行数据挖掘及性能优化》荀亚玲著 2020
- 《中风偏瘫 脑萎缩 痴呆 最新治疗原则与方法》孙作东著 2004
- 《市政工程基础》杨岚编著 2009
- 《家畜百宝 猪、牛、羊、鸡的综合利用》山西省商业厅组织技术处编著 1959
- 《《道德经》200句》崇贤书院编著 2018
- 《高级英语阅读与听说教程》刘秀梅编著 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《看图自学吉他弹唱教程》陈飞编著 2019
- 《法语词汇认知联想记忆法》刘莲编著 2020
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《国家社科基金项目申报规范 技巧与案例 第3版 2020》文传浩,夏宇编著 2019
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019