数据仓库与数据挖掘 第2版PDF电子书下载
- 电子书积分:11 积分如何计算积分?
- 作 者:陈志泊,韩慧,王建新,孙俏,聂耿青
- 出 版 社:北京:清华大学出版社
- 出版年份:2017
- ISBN:9787302483991
- 页数:252 页
第1章 数据仓库的概念与体系结构 1
1.1 数据仓库的概念、特点与组成 1
1.1.1 数据仓库的特点 2
1.1.2 数据仓库的组成 2
1.2 数据挖掘的概念与方法 4
1.2.1 数据挖掘的分析方法 4
1.2.2 数据仓库与数据挖掘的关系 4
1.3 数据仓库的技术、方法与产品 4
1.3.1 OLAP技术 4
1.3.2 数据仓库实施的关键环节和技术 6
1.3.3 数据仓库实施方法论 8
1.3.4 常用的数据仓库产品 8
1.4 数据仓库系统的体系结构 11
1.4.1 独立的数据仓库体系结构 13
1.4.2 基于独立数据集市的数据仓库体系结构 14
1.4.3 基于依赖型数据集市和操作型数据存储的数据仓库体系结构 15
1.4.4 基于逻辑型数据集市和实时数据仓库的体系结构 17
1.5 数据仓库的产生、发展与未来 19
1.5.1 数据仓库的产生 19
1.5.2 数据仓库的发展 20
1.5.3 数据仓库的未来 23
1.5.4 新一代数据仓库技术 24
1.6 小结 25
1.7 习题 26
第2章 数据仓库的数据存储与处理 27
2.1 数据仓库的数据结构 27
2.2 数据仓库的数据特征 28
2.2.1 状态数据与事件数据 28
2.2.2 当前数据与周期数据 28
2.2.3 元数据 30
2.3 数据仓库的数据ETL过程 31
2.3.1 ETL的目标 31
2.3.2 ETL过程描述 32
2.3.3 数据抽取 33
2.3.4 数据清洗 33
2.3.5 数据转换 35
2.3.6 数据加载和索引 36
2.4 多维数据模型 37
2.4.1 多维数据模型及其相关概念 38
2.4.2 多维数据模型的实现 39
2.4.3 多维建模技术 41
2.4.4 星型模式举例 44
2.5 小结 45
2.6 习题 46
第3章 数据仓库系统的设计与开发 47
3.1 数据仓库系统的设计与开发概述 47
3.1.1 建立数据仓库系统的步骤 47
3.1.2 数据仓库系统的生命周期 48
3.1.3 建立数据仓库系统的思维模式 49
3.1.4 数据仓库数据库的设计步骤 49
3.2 基于SQL Server 2005的数据仓库数据库设计 50
3.2.1 分析组织的业务状况及数据源结构 51
3.2.2 组织需求调研,收集分析需求 54
3.2.3 采用信息包图法设计数据仓库的概念模型 57
3.2.4 利用星型图设计数据仓库的逻辑模型 61
3.2.5 数据仓库的物理模型设计 70
3.3 使用SQL Server 2005建立多维数据模型 72
3.3.1 SQL Server 2005示例数据仓库环境的配置与使用 73
3.3.2 基于SQL Server 2005示例数据库的多维数据模型 75
3.4 小结 88
3.5 习题 88
第4章 关联规则 90
4.1 概述 90
4.2 引例 91
4.3 经典算法 94
4.3.1 Apriori算法 94
4.3.2 FP-growth算法 97
4.4 相关研究与应用 100
4.4.1 分类 100
4.4.2 SQL Server 2005中的关联规则应用 100
4.5 小结 106
4.6 习题 107
第5章 数据分类 108
5.1 引例 108
5.2 分类问题概述 109
5.2.1 分类的过程 109
5.2.2 分类的评价准则 110
5.3 决策树 112
5.3.1 决策树的基本概念 112
5.3.2 决策树算法ID3 113
5.3.3 ID3算法应用举例 115
5.3.4 决策树算法C4.5 117
5.3.5 SQL Server 2005中的决策树应用 119
5.3.6 决策树剪枝 125
5.4 支持向量机 125
5.5 近邻分类方法 128
5.5.1 最近邻分类方法 128
5.5.2 k-近邻分类方法 128
5.5.3 近邻分类方法应用举例 129
5.6 小结 130
5.7 习题 130
第6章 数据聚类 131
6.1 引例 131
6.2 聚类分析概述 132
6.3 聚类分析中相似度的计算方法 134
6.3.1 连续型属性的相似度计算方法 134
6.3.2 二值离散型属性的相似度计算方法 135
6.3.3 多值离散型属性的相似度计算方法 136
6.3.4 混合类型属性的相似度计算方法 137
6.4 K-means聚类算法 138
6.4.1 K-means聚类算法的基本概念 138
6.4.2 SQL server 2005中的K-means应用 140
6.5 层次聚类方法 144
6.5.1 层次聚类方法的基本概念 144
6.5.2 层次聚类方法应用举例 145
6.6 小结 146
6.7 习题 147
第7章 贝叶斯网络 148
7.1 引例 148
7.2 贝叶斯概率基础 149
7.2.1 先验概率、后验概率和条件概率 149
7.2.2 条件概率公式 149
7.2.3 全概率公式 150
7.2.4 贝叶斯公式 151
7.3 贝叶斯网络概述 152
7.3.1 贝叶斯网络的组成和结构 152
7.3.2 贝叶斯网络的优越性 152
7.3.3 贝叶斯网络的三个主要议题 153
7.4 贝叶斯网络的预测、诊断和训练算法 154
7.4.1 概率和条件概率数据 154
7.4.2 贝叶斯网络的预测算法 155
7.4.3 贝叶斯网络的诊断算法 157
7.4.4 贝叶斯网络预测和诊断的综合算法 158
7.4.5 贝叶斯网络的建立和训练算法 159
7.5 SQL Server 2005中的贝叶斯网络应用 161
7.6 小结 166
7.7 习题 166
第8章 粗糙集 167
8.1 引例 167
8.2 分类与知识 168
8.2.1 等价关系和等价类 168
8.2.2 分类 169
8.3 粗糙集 170
8.3.1 分类的运算 170
8.3.2 分类的表达能力 170
8.3.3 上近似集和下近似集 170
8.3.4 正域、负域和边界 171
8.3.5 粗糙集应用举例 171
8.3.6 粗糙集的性质 172
8.4 辨识知识的简化 173
8.4.1 集合近似精度的度量 173
8.4.2 分类近似的度量 173
8.4.3 等价关系的可省略、独立和核 174
8.4.4 等价关系简化举例 175
8.4.5 知识的相对简化 175
8.4.6 知识的相对简化举例 176
8.5 决策规则简化 176
8.5.1 知识依赖性的度量 176
8.5.2 简化决策规则 177
8.5.3 可辨识矩阵 179
8.6 小结 180
8.7 习题 181
第9章 神经网络 182
9.1 引例 182
9.2 人工神经网络 183
9.2.1 人工神经网络概述 183
9.2.2 神经元模型 184
9.2.3 网络结构 185
9.3 BP算法 186
9.3.1 网络结构和数据示例 186
9.3.2 有序导数 187
9.3.3 计算误差信号对参数的有序导数 188
9.3.4 梯度下降 189
9.3.5 BP算法描述 189
9.4 SQL Server 2005中的神经网络应用 190
9.5 小结 196
9.6 习题 197
第10章 遗传算法 198
10.1 概述 198
10.2 相关概念 199
10.3 基本步骤 200
10.3.1 概述 200
10.3.2 引例 201
10.4 算法设计 203
10.4.1 编码方式 203
10.4.2 种群规模 204
10.4.3 适应度函数 205
10.4.4 遗传算子 205
10.4.5 终止条件 207
10.5 相关研究与应用 207
10.6 小结 209
10.7 习题 209
第11章 统计分析 211
11.1 线性回归模型 211
11.1.1 线性回归模型的参数估计 212
11.1.2 线性回归方程的判定系数 213
11.1.3 线性回归方程的检验 214
11.1.4 统计软件中的线性回归分析 215
11.1.5 SQL Server 2005中的线性回归应用 216
11.2 Logistic回归模型 222
11.2.1 Logistic回归模型的参数估计 222
11.2.2 统计软件中Logistic回归的结果分析 222
11.2.3 SQL Server 2005中的Logistic回归应用 223
11.3 时间序列模型 229
11.3.1 ARIMA模型 230
11.3.2 建立ARIMA模型的步骤 231
11.3.3 使用统计软件估计ARIMA模型 231
11.3.4 SQL Server 2005中的时间序列分析 233
11.4 小结 238
11.5 习题 238
第12章 文本和Web挖掘 239
12.1 引例 239
12.2 文本挖掘 240
12.2.1 文本信息检索概述 240
12.2.2 基于关键字的关联分析 243
12.2.3 文档自动聚类 243
12.2.4 自动文档分类 244
12.2.5 自动摘要 244
12.3 Web挖掘 246
12.3.1 Web内容挖掘 247
12.3.2 Web结构挖掘 247
12.3.3 Web使用挖掘 249
12.4 小结 250
12.5 习题 250
参考文献 251
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《穿越数据的迷宫 数据管理执行指南》Laura Sebastian-Coleman 2020
- 《大数据环境下的信息管理方法技术与服务创新丛书 俄罗斯档案事业改革与发展研究》徐胡乡责编;肖秋会 2019
- 《Access数据库系统设计与应用教程》李勇帆,廖瑞华主编 2019
- 《并行数据挖掘及性能优化》荀亚玲著 2020
- 《高中英语高效课堂的实践与应用》黄玉红,邱少权,张建新主编 2018
- 《中国抗日战争史 第6卷 战时经济与社会》李学通,金以林,吕迅著;步平,王建朗主编 2019
- 《2018国家执业药师考试辅导用书 中药学专业知识 1 第12版》王建,李敏,傅超美著 2018
- 《无机化学学习指导 第2版》王兴尧,崔建中,秦学,王建辉 2018
- 《宾组卜辞研究 分类卷 上》王建军著 2019
- 《病理生理学学习指导与习题集》王建枝,钱睿哲,周新文主编 2019
- 《全国英语专业博雅系列教材 英语视听说 1》(中国)李委凊,官芬芬,丁建新 2019
- 《中国抗日战争史 第5卷 战时外交》王建朗著;步平,王建朗主编 2019
- 《中国抗日战争史 第1卷 局部抗战》黄道玄,王希亮著;步平,王建朗主编 2019
- 《风中车前子》王建强著 2019
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019