数据分析与数据挖掘PDF电子书下载
- 电子书积分:11 积分如何计算积分?
- 作 者:喻梅,于健主编;王建荣,王庆节副主编
- 出 版 社:北京:清华大学出版社
- 出版年份:2018
- ISBN:9787302493662
- 页数:276 页
第1章 概述 1
1.1数据分析与数据挖掘 1
1.1.1数据分析 1
1.1.2数据挖掘 1
1.1.3区别和联系 3
1.2分析与挖掘的数据类型 3
1.3数据分析与数据挖掘的方法 7
1.4数据分析与数据挖掘使用的技术 9
1.5应用场景及存在的问题 12
1.5.1数据分析与数据挖掘的应用 12
1.5.2存在的主要问题 13
1.6本书结构概述 14
1.7习题 14
第2章 数据 15
2.1数据对象与属性类别 15
2.1.1属性的定义 15
2.1.2属性的分类 15
2.2数据基本统计描述 16
2.2.1中心趋势度量 17
2.2.2数据散布度量 19
2.2.3数据的图形显示 20
2.3数据的相似性和相异性度量 25
2.3.1数据矩阵与相异性矩阵 25
2.3.2标称属性的邻近性度量 25
2.3.3二元属性的邻近性度量 26
2.3.4数值属性的相异性 27
2.3.5序数属性的邻近性度量 29
2.3.6余弦相似性 30
2.4习题 30
第3章 数据预处理 32
3.1数据预处理及任务 32
3.1.1数据预处理的必要性 32
3.1.2数据预处理的主要任务 34
3.2数据清理 35
3.2.1缺失值、噪声和不一致数据的处理 35
3.2.2数据清理方式 38
3.3数据集成 39
3.4数据归约 42
3.4.1直方图 43
3.4.2数据立方体聚集 44
3.4.3属性子集选择 45
3.4.4抽样 46
3.5数据变换与数据离散化 47
3.5.1数据变换策略及分类 47
3.5.2数据泛化 47
3.5.3数据规范化 48
3.5.4数据离散化 49
3.6习题 51
第4章 数据仓库与OLAP 52
4.1数据仓库的基本概念 52
4.1.1数据仓库的定义 52
4.1.2数据仓库的性质 52
4.1.3数据仓库体系结构 53
4.1.4数据仓库设计模型 54
4.2数据仓库设计 55
4.2.1数据仓库的概念模型设计 55
4.2.2数据仓库的逻辑模型设计 58
4.2.3数据仓库的物理模型设计 60
4.3数据仓库实现 61
4.4联机分析处理 70
4.4.1 OLAP简介 71
4.4.2 OLAP与OLTP的关系 72
4.4.3典型的OLAP操作 73
4.5元数据模型 76
4.5.1元数据的类型 77
4.5.2元数据的作用 77
4.5.3元数据的使用 78
4.6习题 79
第5章 回归分析 80
5.1回归分析概述 80
5.1.1变量间的两类关系 80
5.1.2回归分析的步骤 81
5.2一元线性回归 82
5.2.1原理分析 82
5.2.2回归方程求解及模型检验 82
5.2.3一元线性回归实例 85
5.2.4案例分析:使用W eka实现一元线性回归 88
5.3多元线性回归 94
5.3.1原理分析 94
5.3.2回归方程求解及模型检验 95
5.3.3多元线性回归实例 97
5.3.4案例分析:使用Weka实现多元线性回归 99
5.4多项式回归 102
5.4.1原理分析 102
5.4.2多项式回归实例 103
5.4.3案例分析:使用Excel实现多项式回归 104
5.5习题 111
第6章 频繁模式挖掘 113
6.1概述 113
6.1.1案例分析 114
6.1.2相关概念 114
6.1.3先验性质 116
6.2关联模式评估 117
6.2.1支持度-置信度框架 117
6.2.2相关性分析 117
6.2.3模式评估度量 119
6.3 Apriori算法 120
6.3.1 Apriori算法分析 120
6.3.2案例分析:使用Weka实现Apriori算法 124
6.4 FP-growth算法 129
6.4.1 FP-growth算法分析 129
6.4.2案例分析:使用W eka实现FP-growth算法 133
6.5压缩频繁项集 136
6.5.1挖掘闭模式 136
6.5.2挖掘极大模式 136
6.6习题 137
第7章 分类 139
7.1分类概述 139
7.1.1分类的基本概念 139
7.1.2分类的相关知识 139
7.1.3分类的评价指标 143
7.2决策树 144
7.2.1决策树基本概念 144
7.2.2决策树分类器的算法过程 145
7.2.3 ID3算法 146
7.2.4 C4.5算法 149
7.2.5 Weka中使用C4.5算法进行分类预测实例 151
7.2.6决策树的剪枝 156
7.2.7随机森林算法 157
7.2.8使用W eka的随机森林进行分类预测 160
7.3朴素贝叶斯分类 164
7.3.1朴素贝叶斯学习基本原理 164
7.3.2朴素贝叶斯分类过程 165
7.3.3使用Weka的朴素贝叶斯分类器进行分类实例 166
7.4惰性学习法 170
7.4.1 K近邻算法描述 170
7.4.2 K近邻算法性能 172
7.4.3使用Weka进行K近邻分类实例 173
7.5逻辑回归 176
7.5.1逻辑回归基本概念 176
7.5.2二项逻辑回归过程 177
7.5.3使用逻辑回归分类算法的实例 179
7.5.4使用W eka进行逻辑回归分类实例 180
7.6支持向量机 183
7.6.1线性可分支持向量机算法 184
7.6.2线性可分支持向量机算法过程 188
7.6.3使用Weka进行支持向量机分类实例 189
7.7神经网络 192
7.7.1神经网络基本概念 192
7.7.2 BP神经网络算法过程 194
7.7.3 BP神经网络分类算法的实例 196
7.7.4使用Weka进行神经网络的分类实例 198
7.8习题 205
第8章 聚类 207
8.1聚类概述 207
8.1.1聚类的基本概念 207
8.1.2聚类算法的分类 208
8.2基于划分的聚类 210
8.2.1 K-均值算法 210
8.2.2 K-中心点算法 214
8.2.3使用Weka进行基于划分的聚类实例 217
8.3基于层次的聚类 221
8.3.1基于层次的聚类的基本概念 221
8.3.2类间距离度量 222
8.3.3分裂层次聚类 222
8.3.4凝聚层次聚类 224
8.3.5 BIRCH算法 226
8.3.6使用Weka进行基于层次的聚类实例 228
8.4基于密度的聚类 233
8.4.1基于密度的聚类的基本概念 233
8.4.2 DBSCAN算法 233
8.4.3使用Weka进行基于密度的聚类实例 236
8.5基于网格的聚类 241
8.5.1基于网格的聚类的基本概念 241
8.5.2 STING算法 241
8.5.3 CLIQUE算法 243
8.6聚类质量的评估 245
8.7习题 247
第9章 离群点检测 248
9.1离群点的定义与类型 248
9.1.1离群点的定义 248
9.1.2离群点类型 249
9.2离群点的检测 250
9.2.1检测方法的分类 250
9.2.2统计学方法 251
9.2.3近邻性方法 253
9.2.4基于聚类的方法 255
9.2.5基于分类的方法 258
9.3习题 259
附录A Weka的安装及使用规范 260
A.1 Weka的安装 260
A.1.1 WekA 260
A.1.2 JRE的安装 260
A.1.3 Weka的安装 263
A.2 Weka使用方法 267
A.3 Weka数据格式 271
参考文献 275
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《白雪公主分面包 分数》(韩)车宝金文 2016
- 《近代中国分省人文地理影像采集与研究 甘肃》《近代中国分省人文地理影像采集与研究》编写组 2019
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《穿越数据的迷宫 数据管理执行指南》Laura Sebastian-Coleman 2020
- 《大数据环境下的信息管理方法技术与服务创新丛书 俄罗斯档案事业改革与发展研究》徐胡乡责编;肖秋会 2019
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019