数据仓库与数据挖掘技术PDF电子书下载
- 电子书积分:10 积分如何计算积分?
- 作 者:张兴会等编著
- 出 版 社:北京:清华大学出版社
- 出版年份:2011
- ISBN:9787302247012
- 页数:213 页
第1章 数据挖掘和数据仓库概述 1
1.1数据挖掘引论 1
1.1.1数据挖掘的由来 1
1.1.2数据挖掘的定义 2
1.1.3数据挖掘的功能 3
1.1.4数据挖掘的常用方法 4
1.2数据仓库引论 5
1.2.1数据仓库的产生与发展 5
1.2.2数据仓库的定义 6
1.2.3数据仓库与数据挖掘的联系与区别 6
1.3数据挖掘的应用 7
1.3.1数据挖掘的应用领域 7
1.3.2数据挖掘案例 9
1.4常用数据挖掘工具 12
1.4.1数据挖掘工具的种类 13
1.4.2评价数据挖掘工具优劣的指标 14
1.4.3常用数据挖掘工具 14
小结 18
习题1 18
第2章 数据仓库 20
2.1数据仓库的基本概念 20
2.2数据仓库的体系结构 25
2.2.1元数据 26
2.2.2粒度的概念 28
2.2.3分割问题 29
2.2.4数据仓库中的数据组织形式 30
2.3数据仓库的数据模型 31
2.3.1概念数据模型 32
2.3.2逻辑数据模 32
2.3.3物理数据模型 33
2.3.4高层数据模型、中间层数据模型和低层数据模型 33
2.4数据仓库设计步骤 34
2.4.1概念模型设计 34
2.4.2技术准备工作 36
2.4.3逻辑模型设计 36
2.4.4物理模型设计 38
2.4.5数据仓库的生成 38
2.4.6数据仓库的使用和维护 39
2.5利用SQL Server 2005构建数据仓库 41
小结 50
习题2 50
第3章 联机分析处理技术 51
3.1 OLAP概述 51
3.1.1 OLAP的由来 51
3.1.2 OLAP的一些基本概念 51
3.1.3 OLAP的定义与特征 52
3.2 OLAP中的多维分析操作 52
3.2.1钻取 53
3.2.2切片和切块 53
3.2.3旋转 53
3.3 OLAP的基本数据模型 55
3.3.1多维联机分析处理 55
3.3.2关系联机分析处理 56
3.3.3 MOLAP和ROLAP的比较 57
3.3.4混合型联机分析处理 58
3.4 OLAP的衡量标准 58
3.5基于SQL Server 2005的OLAP实现 60
小结 72
习题3 72
第4章 数据预处理 73
4.1数据预处理概述 73
4.1.1原始数据中存在的问题 73
4.1.2数据预处理的方法和功能 74
4.2数据清洗 74
4.2.1属性选择与处理 74
4.2.2空缺值处理 75
4.2.3噪声数据处理 76
4.2.4不平衡数据的处理 79
4.3数据集成和变换 80
4.3.1数据集成 80
4.3.2数据变换 81
4.4数据归约 84
4.4.1数据归约的方法 84
4.4.2数据立方体聚集 84
4.4.3维归约 84
4.4.4数据压缩 86
4.4.5数值归约 86
4.4.6离散化与概念分层生成 89
小结 92
习题4 93
第5章关联规则方法 94
5.1关联规则的概念和分类 94
5.1.1关联规则的概念 94
5.1.2关联规则的分类 95
5.2 Apriori算法 96
5.2.1产生频繁项集 96
5.2.2产生频繁项集的实例 97
5.2.3从频繁项集产生关联规则 99
5.3 FP-Growth算法 100
5.3.1 FP-Growth算法计算过程 100
5.3.2 FP-Growth算法示例 101
5.4利用SQL Server 2005进行关联规则挖掘 102
小结 119
习题5 120
第6章 决策树方法 121
6.1信息论的基本原理 121
6.1.1信息论原理 121
6.1.2互信息的计算 122
6.2常用决策树算法 124
6.2.1 ID3算法 124
6.2.2 C4.5算法 127
6.3决策树剪枝 130
6.3.1先剪枝 130
6.3.2后剪枝 130
6.4由决策树提取分类规则 130
6.4.1获得简单规则 131
6.4.2精简规则属性 131
6.5利用SQL Server 2005进行决策树挖掘 132
6.5.1数据准备 132
6.5.2挖掘模型设置 132
6.5.3挖掘流程 133
6.5.4挖掘结果分析 135
6.5.5挖掘性能分析 138
小结 139
习题6 139
第7章 统计学习方法 140
7.1朴素贝叶斯分类 140
7.1.1贝叶斯定理 140
7.1.2朴素贝叶斯分类 141
7.2贝叶斯信念网络 143
7.2.1贝叶斯信念网络 143
7.2.2贝叶斯网络的特点 143
7.2.3贝叶斯网络的应用 144
7.3 EM算法 144
7.3.1估计k个高斯分布的均值 144
7.3.2 EM算法的一般表述 146
7.4回归分析 147
7.4.1一元线性回归 147
7.4.2多元线性回归 148
7.4.3非线性回归 149
7.5利用SQL Server 2005进行线性回归分析 150
小结 155
习题7 155
第8章 人工神经网络方法 156
8.1人工神经网络的基本概念 156
8.1.1人工神经元原理 156
8.1.2人工神经网络拓扑结构 158
8.1.3人工神经网络学习算法 158
8.1.4人工神经网络泛化 160
8.2误差反向传播(BP)神经网络 160
8.2.1 BP神经网络的拓扑结构 160
8.2.2 BP神经网络学习算法 161
8.2.3 BP神经网络设计 163
8.3自组织特征映射(SOFM)神经网络 163
8.3.1 SOFM神经网络的拓扑结构 163
8.3.2 SOFM神经网络聚类的基本算法 164
8.3.3 SOFM神经网络学习算法分析 165
8.4 Elman神经网络 165
8.4.1 Elman神经网络的拓扑结构 165
8.4.2 Elman神经网络权值计算 166
8.5 Hopfield神经网络 166
8.5.1 Hopfield神经网络的拓扑结构 167
8.5.2 Hopfield神经网络学习算法概述 167
8.5.3离散Hopfield神经网络 167
8.5.4连续Hopfield神经网络 168
8.6利用SQL Server 2005神经网络进行数据挖掘 169
8.6.1数据准备 169
8.6.2挖掘流程 170
小结 174
习题8 174
第9章 聚类分析 175
9.1聚类概述 175
9.1.1聚类简介 175
9.1.2聚类的定义 175
9.1.3聚类的要求 175
9.2聚类分析中的相异度计算 176
9.2.1聚类算法中的数据结构 176
9.2.2区间标度变量及其相异度计算 177
9.2.3二元变量及其相异度计算 178
9.2.4标称型变量及其相异度计算 179
9.2.5序数型变量及其相异度计算 180
9.2.6比例标度型变量及其相异度计算 180
9.2.7混合类型变量的相异度计算 180
9.3基于划分的聚类方法 181
9.3.1 k-平均算法 181
9.3.2 k-中心点算法 182
9.4基于层次的聚类方法 183
9.5谱聚类方法 184
9.5.1谱聚类的步骤 184
9.5.2谱聚类的优点 185
9.5.3谱聚类实例 185
9.6利用SQL Server 2005进行聚类分析 186
9.6.1挖掘流程 186
9.6.2结果分析 188
小结 191
习题9 192
第10章 粗糙集方法 193
10.1粗糙集的基本概念 193
10.1.1等价关系与等价类 193
10.1.2信息表与决策表 194
10.1.3下近似与上近似 195
10.2基于粗糙集的属性约简 196
10.2.1属性约简的有关概念 196
10.2.2基于粗糙集的几种属性约简算法 198
10.3基于粗糙集的决策规则约简 199
10.3.1决策规则的定义 199
10.3.2决策规则的约简 200
10.4粗糙集的优缺点 201
10.4.1粗糙集的优点 201
10.4.2粗糙集的缺点 201
小结 201
习题10 202
第11章 复杂结构数据挖掘 203
11.1文本数据挖掘 203
11.1.1文本数据的特点 203
11.1.2文本挖掘的定义 203
11.1.3文本挖掘的主要任务 204
11.1.4文本挖掘的一般过程 204
11.1.5文本挖掘的应用 207
11.2 Web数据挖掘 207
11.2.1 Web数据的特点 208
11.2.2 Web挖掘的定义 208
11.2.3 Web挖掘分类 208
11.2.4 Web挖掘过程 209
11.2.5 Web数据挖掘的应用 209
11.3空间数据挖掘 210
11.3.1空间数据的复杂性特征 210
11.3.2空间数据挖掘的定义 210
11.3.3空间数据挖掘知识的类型 211
11.3.4空间数据挖掘的用途 211
11.4多媒体数据挖掘 211
11.4.1多媒体数据挖掘的概念 211
11.4.2多媒体挖掘的分类 211
小结 212
习题11 212
参考文献 213
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《穿越数据的迷宫 数据管理执行指南》Laura Sebastian-Coleman 2020
- 《大数据环境下的信息管理方法技术与服务创新丛书 俄罗斯档案事业改革与发展研究》徐胡乡责编;肖秋会 2019
- 《Access数据库系统设计与应用教程》李勇帆,廖瑞华主编 2019
- 《并行数据挖掘及性能优化》荀亚玲著 2020
- 《市政工程基础》杨岚编著 2009
- 《家畜百宝 猪、牛、羊、鸡的综合利用》山西省商业厅组织技术处编著 1959
- 《《道德经》200句》崇贤书院编著 2018
- 《高级英语阅读与听说教程》刘秀梅编著 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《看图自学吉他弹唱教程》陈飞编著 2019
- 《法语词汇认知联想记忆法》刘莲编著 2020
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《国家社科基金项目申报规范 技巧与案例 第3版 2020》文传浩,夏宇编著 2019
- 《流体力学》张扬军,彭杰,诸葛伟林编著 2019
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019