数据仓库与数据挖掘PDF电子书下载
- 电子书积分:11 积分如何计算积分?
- 作 者:龙军,章成源编著
- 出 版 社:长沙:中南大学出版社
- 出版年份:2018
- ISBN:9787548731719
- 页数:258 页
第1章 数据仓库的概念与体系结构 1
1.1 数据仓库的兴起 1
1.1.1 数据管理技术的发展 1
1.1.2 数据仓库的萌芽 3
1.2 数据仓库的基本概念 4
1.2.1 元数据 4
1.2.2 数据粒度 5
1.2.3 数据模型 5
1.2.4 ETL 6
1.2.5 数据集市 7
1.3 数据仓库的特点与组成 8
1.3.1 数据仓库的特点 8
1.3.2 数据仓库的组成 11
1.4 数据仓库的体系结构 15
1.4.1 传统的数据仓库体系结构 15
1.4.2 传统数据仓库系统在大数据时代所面临的挑战 16
1.4.3 大数据时代的数据仓库 20
习题 23
第2章 数据 24
2.1 数据的概念与内容 24
2.2 数据属性与数据集 28
2.3 数据预处理 29
2.3.1 数据预处理概述 30
2.3.2 数据清洗 31
2.3.3 数据集成 35
2.3.4 数据变换 38
2.3.5 数据归约 39
习题 47
第3章 数据存储 49
3.1 数据仓库的数据模型 49
3.1.1 数据仓库的概念模型 50
3.1.2 数据仓库的逻辑模型 52
3.1.3 数据仓库的物理模型 54
3.2 元数据存储 55
3.2.1 元数据的概念 55
3.2.2 元数据的分类方法 55
3.2.3 元数据的管理 57
3.2.4 元数据的作用 58
3.3 数据集市 59
3.3.1 数据集市的概念 59
3.3.2 数据集市的类型 60
3.3.3 数据集市的建立 60
3.4 大数据存储技术 61
3.4.1 大数据的概念 61
3.4.2 传统数据库的局限 62
3.4.3 NoSQL数据库 63
3.4.4 几种主流的NoSQL数据库 64
习题 64
第4章 OLAP与数据立方体 65
4.1 OLAP的概念 65
4.1.1 OLAP的定义 65
4.1.2 OLAP的准则 66
4.1.3 OLAP的特征 69
4.2 多维分析的基本分析动作 70
4.2.1 切片 70
4.2.2 切块 71
4.2.3 钻取 72
4.2.4 旋转 72
4.3 OLAP的数据模型 73
4.3.1 ROLAP数据模型 73
4.3.2 MOLAP数据模型 75
4.3.3 MOLAP和ROLAP的数据组织与应用比较 76
4.3.4 HOLAP数据模型 77
4.4 数据立方体的基本概念 78
4.4.1 数据立方体中的一些概念 78
4.4.2 数据立方体计算的一般策略 79
4.5 数据立方体的计算方法 80
4.5.1 多路数组策略计算完全立方体 80
4.5.2 从顶点方体向下计算冰山立方体 80
4.5.3 使用动态星树结构计算冰山立方体 81
4.5.4 快速高维OLAP预计算壳片段 82
习题 83
第5章 数据挖掘基础 84
5.1 数据挖掘的兴起 84
5.1.1 数据挖掘的发展历程 84
5.1.2 数据挖掘的概述 85
5.1.3 大规模数据挖掘 86
5.2 数据挖掘的任务 87
5.2.1 关联规则 87
5.2.2 聚类分析 88
5.2.3 分类分析 89
5.2.4 回归分析 90
5.2.5 相关分析 91
5.2.6 异常检测 92
5.3 数据挖掘的流程 92
5.3.1 数据挖掘对象 92
5.3.2 数据挖掘分类 93
5.3.3 知识发现的过程 94
习题 96
第6章 关联挖掘 97
6.1 关联规则的概念和分类 97
6.1.1 关联规则的概念 97
6.1.2 关联规则的分类 99
6.2 Apriori算法 100
6.2.1 Apriori算法概述 100
6.2.2 Apriori算法的性质与步骤 100
6.2.3 Apriori算法的实例 101
6.2.4 从频繁项集产生关联规则 103
6.3 FP-Growth算法 104
6.3.1 FP-tree的建立 105
6.3.2 FP-tree上挖掘关联规则 106
6.4 挖掘算法的进阶算法 107
习题 110
第7章 聚类分析 112
7.1 聚类分析概述 112
7.1.1 聚类分析的定义 112
7.1.2 聚类分析的分类 113
7.2 差异度的计算方法 114
7.2.1 聚类算法中的数据结构 114
7.2.2 区间标度变量的差异度计算 115
7.2.3 二元变量的差异度计算 116
7.2.4 标称型变量的差异度计算 117
7.2.5 序数型变量的差异度计算 118
7.2.6 比例标度型变量的差异度计算 119
7.2.7 混合类型变量的差异度计算 119
7.3 基于分割的聚类方法 120
7.3.1 分割聚类方法的描述 120
7.3.2 K-means均值算法 121
7.3.3 PAM算法 122
7.3.4 CLARA算法和CLARANS算法 125
7.4 基于密度的聚类方法 126
7.4.1 基于密度的聚类方法描述 126
7.4.2 DBSCAN算法 127
7.4.3 OPTICS算法 129
7.5 谱聚类方法 130
7.5.1 谱聚类描述 130
7.5.2 谱聚类算法描述 131
7.5.3 谱聚类实例 132
7.6 ICA聚类分析 133
7.6.1 ICA的起源和目的 133
7.6.2 ICA模型和应用要求 133
7.6.3 ICA应用场合 135
习题 135
第8章 分类 137
8.1 分类的基本知识 137
8.1.1 分类的概念 137
8.1.2 分类的评价标准 138
8.1.3 分类的主要方法 138
8.2 决策树分类 139
8.2.1 决策树算法概述 139
8.2.2 决策树的生成 141
8.2.3 决策树中规则的提取 142
8.2.4 ID3算法 143
8.2.5 C4.5算法 145
8.2.6 蒙特卡洛树搜索(MCTS)算法 146
8.3 SVM预测 147
8.3.1 线性可分的SVM 147
8.3.2 线性不可分的SVM 150
8.3.3 SVM的实现——手写数字图片的识别 153
8.4 KNN算法 154
8.4.1 KNN算法的描述 155
8.4.2 KNN算法的实现 156
习题 157
第9章 神经网络 159
9.1 神经网络概述与定义 159
9.1.1 神经网络概述 159
9.1.2 神经网络的学习过程 160
9.2 限制玻尔兹曼机(RBM) 161
9.2.1 RBM的定义 161
9.2.2 RBM的能量模型与学习方法 162
9.3 深度信念网络 165
9.3.1 DBN反向传播算法介绍与改进 165
9.3.2 DNN分类与代价函数选择 170
9.4 卷积神经网络(CNN) 173
9.4.1 卷积神经网络定义与结构 173
9.4.2 CNN两个特点与图形实例 176
9.5 循环神经网络(RNN) 179
9.5.1 RNN概述 180
9.5.2 RNN训练 181
9.5.3 LSTMs网络与函数展示图例 182
习题 186
第10章 统计分析 188
10.1 回归分析 188
10.1.1 一元线性回归 188
10.1.2 多元线性回归 191
10.1.3 非线性回归 193
10.2 EM算法 194
10.2.1 EM算法的引入 194
10.2.2 EM算法的推导 196
10.2.3 EM算法的收敛性 197
10.3 Bayes分类 199
10.3.1 Bayes定理 199
10.3.2 简单Bayes分类 200
10.3.3 Bayes信念网络 201
10.3.4 Bayes网络的应用 203
习题 203
第11章 非结构化数据挖掘 204
11.1 文本数据挖掘 204
11.1.1 文本数据挖掘的概念 204
11.1.2 文本数据挖掘技术 208
11.2 Web数据挖掘 214
11.2.1 Web数据挖掘的概念 215
11.2.2 Web数据挖掘的分类 216
11.2.3 Web数据挖掘的应用 220
11.3 多媒体数据挖掘 221
11.3.1 多媒体数据挖掘的概念 222
11.3.2 多媒体数据挖掘的分类 223
习题 225
第12章 知识图谱 227
12.1 知识图谱构建 227
12.1.1 知识图谱的概述 227
12.1.2 知识图谱的数据来源 229
12.1.3 多源异构数据的融合 231
12.1.4 知识图谱的表示 232
12.2 知识图谱技术 233
12.2.1 实体抽取 234
12.2.2 关系抽取 235
12.2.3 知识推理 236
12.3 知识图谱的典型应用 238
12.3.1 查询理解 238
12.3.2 自动问答 240
12.3.3 前景和挑战 240
习题 241
第13章 大数据挖掘算法 242
13.1 Hadoop介绍 242
13.1.1 Hadoop的基本概念 242
13.1.2 Hadoop的基本组件 244
13.2 基于MapReduce数据挖掘算法 247
13.2.1 基于MapReduce的K-means并行算法 248
13.2.2 基于MapReduce的分类算法 251
13.2.3 基于MapReduce的序列模式挖掘算法 253
习题 255
参考文献 256
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《穿越数据的迷宫 数据管理执行指南》Laura Sebastian-Coleman 2020
- 《大数据环境下的信息管理方法技术与服务创新丛书 俄罗斯档案事业改革与发展研究》徐胡乡责编;肖秋会 2019
- 《Access数据库系统设计与应用教程》李勇帆,廖瑞华主编 2019
- 《并行数据挖掘及性能优化》荀亚玲著 2020
- 《市政工程基础》杨岚编著 2009
- 《家畜百宝 猪、牛、羊、鸡的综合利用》山西省商业厅组织技术处编著 1959
- 《《道德经》200句》崇贤书院编著 2018
- 《高级英语阅读与听说教程》刘秀梅编著 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《看图自学吉他弹唱教程》陈飞编著 2019
- 《法语词汇认知联想记忆法》刘莲编著 2020
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《国家社科基金项目申报规范 技巧与案例 第3版 2020》文传浩,夏宇编著 2019
- 《流体力学》张扬军,彭杰,诸葛伟林编著 2019
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《大学化学实验》李爱勤,侯学会主编 2016
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017