基于Rattle的可视化数据挖掘技术PDF电子书下载
- 电子书积分:9 积分如何计算积分?
- 作 者:张冬慧编著
- 出 版 社:北京:清华大学出版社
- 出版年份:2017
- ISBN:9787302474326
- 页数:175 页
第1章 绪论 1
1.1 数据挖掘的认识 1
1.1.1 为什么要进行数据挖掘 1
1.1.2 数据挖掘过程 1
1.1.3 数据挖掘九大定律 3
1.2 R与Rattle 3
1.2.1 R语言 3
1.2.2 R语言的基本语法 4
1.2.3 R语言的优势 10
1.2.4 Rattle包 10
1.3 本章小结 12
第2章 入门指南 13
2.1 概述 13
2.2 认识Rstudio 13
2.2.1 Rstudio的界面 13
2.2.2 R脚本编辑区 14
2.2.3 R命令控制台 15
2.2.4 工作空间 16
2.2.5 结果展示区 18
2.3 认识Rattle 20
2.3.1 Rattle的安装与启动 20
2.3.2 选项卡 21
2.3.3 工具栏 24
2.3.4 菜单栏 24
2.3.5 属性面板 26
2.4 本章小结 26
第3章 数据准备 28
3.1 概述 28
3.2 数据 28
3.2.1 术语 28
3.2.2 变量 29
3.2.3 数据集 30
3.3 可用数据 30
3.4 数据质量 31
3.4.1 数据质量概述 31
3.4.2 数据质量评估维度 31
3.4.3 影响数据质量的因素 31
3.5 数据匹配 32
3.6 数据仓库 33
3.7 数据访问 34
3.8 载入数据 35
3.8.1 载入CSV数据 35
3.8.2 载入数据库 36
3.8.3 载入SPSS类型数据 38
3.8.4 载入自带数据集 38
3.8.5 载入网页数据 38
3.8.6 载入其他格式的数据 39
3.9 本章小结 39
第4章 数据理解 41
4.1 概述 41
4.2 汇总数据 41
4.2.1 查看数据的简单信息 41
4.2.2 查看数据的细节信息 43
4.2.3 查看数据的分布信息 43
4.2.4 查看数据的缺失值 44
4.3 数据分布图 46
4.3.1 数值型变量分布图 46
4.3.2 分类变量分布图 50
4.3.3 散点图矩阵 52
4.4 相关分析 53
4.4.1 相关矩阵和相关图 53
4.4.2 缺失值的相关分析 55
4.4.3 相关树 56
4.5 主成分分析 60
4.6 交互式探索数据 62
4.6.1 安装GGobi 63
4.6.2 安装rggobi 63
4.6.3 实验指导 64
4.7 本章小结 64
第5章 数据检验 66
5.1 概述 66
5.2 K-S正态性检验 67
5.3 Wilcoxon检验 68
5.4 t检验 70
5.5 F检验 72
5.6 本章小结 73
第6章 数据变换 75
6.1 概述 75
6.2 取值范围调整 77
6.3 缺失值填充 79
6.4 变量类型转换 81
6.4.1 数值变量离散化 81
6.4.2 分类变量指标化 81
6.4.3 分类变量合并 83
6.4.4 分类变量和数值变量互相转换 83
6.4.5 变量和数据的删除 83
6.5 离群点数据的处理 84
6.6 本章小结 86
第7章 数据建模 87
7.1 概述 87
7.2 聚类模型 96
7.2.1 背景 96
7.2.2 K-means聚类 96
7.2.3 Ewkm聚类 100
7.2.4 层次聚类 101
7.2.5 双向聚类 105
7.3 关联规则挖掘 106
7.3.1 背景 106
7.3.2 基本术语 107
7.3.3 关联规则分类 108
7.3.4 Apriori算法 108
7.3.5 实验指导 109
7.4 传统决策树模型 114
7.4.1 背景 114
7.4.2 ID3算法 115
7.4.3 C4.5算法 116
7.4.4 实验指导 117
7.5 随机森林决策树模型 120
7.5.1 背景 120
7.5.2 随机森林算法 121
7.5.3 实验指导 122
7.6 自适应选择决策树模型 126
7.6.1 背景 126
7.6.2 Boosting算法 127
7.6.3 Adaboost算法 127
7.6.4 实验指导 128
7.7 SVM 131
7.7.1 背景 131
7.7.2 SVM算法 131
7.7.3 实验指导 133
7.8 线性回归模型 134
7.8.1 背景 134
7.8.2 一元线性回归方法 135
7.8.3 实验指导 137
7.9 神经网络模型 138
7.9.1 背景 138
7.9.2 人工神经网络模型 139
7.9.3 实验指导 142
7.10 本章小结 143
第8章 模型评估 147
8.1 概述 147
8.2 数据集 148
8.3 混淆矩阵 149
8.3.1 二分类混淆矩阵 149
8.3.2 模型评价指标 150
8.3.3 多分类混淆矩阵 151
8.4 风险图 151
8.4.1 风险图的作用 151
8.4.2 实验指导 152
8.5 ROC曲线 154
8.5.1 ROC曲线的定义 154
8.5.2 ROC曲线的作用 154
8.5.3 实验指导 155
8.6 其他模型评估图 156
8.7 本章小结 157
第9章 模型部署 159
9.1 概述 159
9.2 模型的应用 159
9.3 转换为PMML 161
9.4 电商数据挖掘案例 162
9.4.1 背景 162
9.4.2 数据理解 162
9.4.3 数据准备 163
9.4.4 清洗数据 166
9.4.5 探索数据 167
9.4.6 数据建模 172
9.5 本章小结 174
参考文献 175
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《穿越数据的迷宫 数据管理执行指南》Laura Sebastian-Coleman 2020
- 《大数据环境下的信息管理方法技术与服务创新丛书 俄罗斯档案事业改革与发展研究》徐胡乡责编;肖秋会 2019
- 《Access数据库系统设计与应用教程》李勇帆,廖瑞华主编 2019
- 《并行数据挖掘及性能优化》荀亚玲著 2020
- 《市政工程基础》杨岚编著 2009
- 《家畜百宝 猪、牛、羊、鸡的综合利用》山西省商业厅组织技术处编著 1959
- 《《道德经》200句》崇贤书院编著 2018
- 《高级英语阅读与听说教程》刘秀梅编著 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《看图自学吉他弹唱教程》陈飞编著 2019
- 《法语词汇认知联想记忆法》刘莲编著 2020
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《国家社科基金项目申报规范 技巧与案例 第3版 2020》文传浩,夏宇编著 2019
- 《流体力学》张扬军,彭杰,诸葛伟林编著 2019
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019