数据挖掘PDF电子书下载
- 电子书积分:9 积分如何计算积分?
- 作 者:宋万清,杨寿渊,陈剑雪,高永彬编著
- 出 版 社:北京:中国铁道出版社
- 出版年份:2019
- ISBN:7113251673
- 页数:180 页
第1章 数据挖掘概述 1
1.1 什么是数据挖掘 1
1.1.1 数据、信息和知识 1
1.1.2 数据挖掘的定义 2
1.1.3 数据挖掘的发展简史 3
1.2 数据挖掘的基本流程及方法概述 4
1.2.1 数据挖掘的基本流程 4
1.2.2 数据挖掘的任务和方法概述 6
1.3 数据挖掘的应用 9
1.3.1 数据挖掘在商务领域的应用 9
1.3.2 数据挖掘在医疗和医学领域的应用 10
1.3.3 数据挖掘在银行和保险领域的应用 10
1.3.4 数据挖掘在社交媒体领域的应用 11
习题 11
第2章 数据的描述与可视化 12
2.1 概述 12
2.2 数据对象与属性类型 12
2.2.1 什么是属性 12
2.2.2 标称属性 12
2.2.3 二元属性 13
2.2.4 序数属性 13
2.2.5 数值属性 14
2.2.6 离散属性与连续属性 14
2.3 数据的基本统计描述 15
2.3.1 中心趋势度量 15
2.3.2 度量数据散布:极差、四分位数、方差、标准差和四分位数极差 17
2.3.3 数据基本统计的图形描述 19
2.4 数据可视化 23
2.4.1 基于像素的可视化 23
2.4.2 几何投影可视化 25
2.4.3 基于图符的可视化 27
2.4.4 层次可视化 28
2.4.5 可视化复杂对象和关系 30
2.5 数据相似性和相异性度量 32
2.5.1 数据矩阵与相异性矩阵 32
2.5.2 标称属性的邻近性度量 33
2.5.3 二元属性的邻近性度量 34
2.5.4 数值属性的相异性:闵可夫斯基距离 36
2.5.5 序数属性的邻近性度量 37
2.5.6 混合类型属性的相异性 38
2.5.7 余弦相似性 40
习题 40
第3章 数据的采集和预处理 42
3.1 概述 42
3.1.1 大数据采集的特点 42
3.1.2 大数据采集的方法 43
3.2 数据预处理的目的和任务 44
3.3 数据清洗 45
3.3.1 缺失值清洗 46
3.3.2 异常值清洗 48
3.3.3 格式内容清洗 50
3.3.4 逻辑错误清洗 50
3.3.5 非需求数据清洗 51
3.3.6 关联性验证 51
3.4 数据集成 52
3.5 数据变换 53
习题 56
第4章 数据的归约 57
4.1 概述 57
4.2 属性的选择与数值归约 57
4.2.1 属性的评估准则 58
4.2.2 属性子集选择方法 59
4.2.3 数值归约 60
4.3 线性回归 61
4.4 主成分分析 63
习题 66
第5章 关联规则挖掘 67
5.1 概述 67
5.2 关联规则的分类 68
5.3 关联规则的研究步骤 68
5.3.1 关联规则挖掘算法的分类 69
5.3.2 各种算法类型的对比 70
5.4 Apriori算法分析 70
5.5 实例分析 70
5.6 关联规则的推广(GRI) 72
5.7 关联规则的深入挖掘 74
习题 75
第6章 分类与预测 76
6.1 概述 76
6.1.1 基本概念 76
6.1.2 数据分类的一般方法 77
6.2 决策树模型 77
6.2.1 决策树的工作原理 78
6.2.2 决策树的适用问题 78
6.2.3 ID3算法 79
6.2.4 决策树的结点划分 80
6.3 贝叶斯分类模型 81
6.3.1 贝叶斯定理 81
6.3.2 贝叶斯模型的特点 82
6.4 线性判别模型 82
6.5 逻辑回归模型 83
6.5.1 逻辑回归模型概述 83
6.5.2 逻辑回归模型的基本概念 83
6.6 模型的评估与选择 85
6.6.1 评估分类器性能的度量 85
6.6.2 保持方法和随机二次抽样 90
6.6.3 交叉验证 90
6.6.4 自助法 91
6.6.5 使用统计显著性检验选择模型 91
习题 93
第7章 非线性预测模型 94
7.1 概述 94
7.2 支持向量机 94
7.2.1 支持向量机分类原理 95
7.2.2 非线性支持向量机 99
7.2.3 支持向量机回归预测 102
7.2.4 基于支持向量机的预测分析 106
7.3 神经网络 108
7.3.1 人工神经网络模型与分类 108
7.3.2 BP神经网络 112
7.3.3 RBF神经网络 117
7.3.4 基于神经网络的预测分析 121
习题 124
第8章 聚类分析 125
8.1 概述 125
8.2 k-均值聚类 126
8.3 k-中心聚类 129
8.4 聚类评估 130
8.4.1 外部法 130
8.4.2 内部法 131
8.4.3 可视化方法 131
习题 131
第9章 深度学习简介 133
9.1 概述 133
9.2 来自人类视觉机理的启发 134
9.3 深层神经网络 136
9.4 卷积神经网络 137
9.4.1 卷积和池化 138
9.4.2 CNN网络框架 141
9.4.3 CNN的应用 142
9.5 RNN循环神经网络 144
9.5.1 RNN的结构 145
9.5.2 RNN的缺陷 146
9.5.3 RNN的应用 147
9.6 生成对抗网络 147
9.6.1 GAN的原理与架构 148
9.6.2 GAN的应用 150
习题 151
第10章 使用Weka进行数据挖掘 153
10.1 概述 153
10.2 Weka关联数据挖掘的基本操作 153
10.3 数据格式 158
10.4 关联规则挖掘 160
10.5 分类与回归 163
10.6 聚类分析 166
习题 167
附录A 拉格朗日优化法 169
参考文献 177
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《穿越数据的迷宫 数据管理执行指南》Laura Sebastian-Coleman 2020
- 《大数据环境下的信息管理方法技术与服务创新丛书 俄罗斯档案事业改革与发展研究》徐胡乡责编;肖秋会 2019
- 《Access数据库系统设计与应用教程》李勇帆,廖瑞华主编 2019
- 《并行数据挖掘及性能优化》荀亚玲著 2020
- 《陕西民歌金曲30首:五线谱版》赵季平,冯健雪,黎琦编著 2019
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《电子管风琴伴奏中外经典合唱曲集》主编;王永刚副主编;宋尧尧陈宏赵雪陈海涛 2019
- 《圆圆的肥皂泡》陈晓丹,温慧责编;(法)科琳娜·蓓尔特兰德总主编;谢倩雪译者;(比)史蒂文·迪普雷绘画;刘慈欣 2020
- 《工业废水处理工艺与设计》高永编著 2019
- 《陕西民歌金曲30首:简谱版》赵季平,冯健雪,黎琦编著 2019
- 《2020经济类联考综合能力 数学高分指南》陈剑编著 2019
- 《流浪地球》陈晓丹,温慧责编;(法)科琳娜·蓓尔特兰德总主编;谢倩雪译者;(法)克里斯托弗·贝克改编;(意)斯蒂芬诺·拉弗雷绘画;刘慈欣 2020
- 《战国竹书论集》陈剑著 2019
- 《花镜》(清)陈淏撰;陈剑点校 2019
- 《中国当代乡土小说文库 本乡本土》(中国)刘玉堂 2019
- 《异质性条件下技术创新最优市场结构研究 以中国高技术产业为例》千慧雄 2019
- 《中国铁路人 第三届现实主义网络文学征文大赛一等奖》恒传录著 2019
- 《莼江曲谱 2 中国昆曲博物馆藏稀见昆剧手抄曲谱汇编之一》郭腊梅主编;孙伊婷副主编;孙文明,孙伊婷编委;中国昆曲博物馆编 2018
- 《中国制造业绿色供应链发展研究报告》中国电子信息产业发展研究院 2019
- 《中国陈设艺术史》赵囡囡著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《《走近科学》精选丛书 中国UFO悬案调查》郭之文 2019
- 《清至民国中国西北戏剧经典唱段汇辑 第8卷》孔令纪 2018
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018