当前位置:首页 > 工业技术
基于Rattle的可视化数据挖掘技术
基于Rattle的可视化数据挖掘技术

基于Rattle的可视化数据挖掘技术PDF电子书下载

工业技术

  • 电子书积分:9 积分如何计算积分?
  • 作 者:张冬慧编著
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2017
  • ISBN:9787302474326
  • 页数:175 页
图书介绍:数据挖掘近年来发展异常迅猛,已成为大数据时代最热门的技术和研究热点。本书介绍数据挖掘的全过程实践,包括数据理解、数据准备、模型建立、模型评估、模型优化和应用部署。本书通过大量精选实例,循序渐进,全面系统地讲述数据挖掘过程。
《基于Rattle的可视化数据挖掘技术》目录

第1章 绪论 1

1.1 数据挖掘的认识 1

1.1.1 为什么要进行数据挖掘 1

1.1.2 数据挖掘过程 1

1.1.3 数据挖掘九大定律 3

1.2  R与Rattle 3

1.2.1 R语言 3

1.2.2 R语言的基本语法 4

1.2.3 R语言的优势 10

1.2.4 Rattle包 10

1.3 本章小结 12

第2章 入门指南 13

2.1 概述 13

2.2 认识Rstudio 13

2.2.1  Rstudio的界面 13

2.2.2  R脚本编辑区 14

2.2.3  R命令控制台 15

2.2.4 工作空间 16

2.2.5 结果展示区 18

2.3 认识Rattle 20

2.3.1  Rattle的安装与启动 20

2.3.2 选项卡 21

2.3.3 工具栏 24

2.3.4 菜单栏 24

2.3.5 属性面板 26

2.4 本章小结 26

第3章 数据准备 28

3.1 概述 28

3.2 数据 28

3.2.1 术语 28

3.2.2 变量 29

3.2.3 数据集 30

3.3 可用数据 30

3.4 数据质量 31

3.4.1 数据质量概述 31

3.4.2 数据质量评估维度 31

3.4.3 影响数据质量的因素 31

3.5 数据匹配 32

3.6 数据仓库 33

3.7 数据访问 34

3.8 载入数据 35

3.8.1 载入CSV数据 35

3.8.2 载入数据库 36

3.8.3 载入SPSS类型数据 38

3.8.4 载入自带数据集 38

3.8.5 载入网页数据 38

3.8.6 载入其他格式的数据 39

3.9 本章小结 39

第4章 数据理解 41

4.1 概述 41

4.2 汇总数据 41

4.2.1 查看数据的简单信息 41

4.2.2 查看数据的细节信息 43

4.2.3 查看数据的分布信息 43

4.2.4 查看数据的缺失值 44

4.3 数据分布图 46

4.3.1 数值型变量分布图 46

4.3.2 分类变量分布图 50

4.3.3 散点图矩阵 52

4.4 相关分析 53

4.4.1 相关矩阵和相关图 53

4.4.2 缺失值的相关分析 55

4.4.3 相关树 56

4.5 主成分分析 60

4.6 交互式探索数据 62

4.6.1 安装GGobi 63

4.6.2 安装rggobi 63

4.6.3 实验指导 64

4.7 本章小结 64

第5章 数据检验 66

5.1 概述 66

5.2  K-S正态性检验 67

5.3 Wilcoxon检验 68

5.4  t检验 70

5.5 F检验 72

5.6 本章小结 73

第6章 数据变换 75

6.1 概述 75

6.2 取值范围调整 77

6.3 缺失值填充 79

6.4 变量类型转换 81

6.4.1 数值变量离散化 81

6.4.2 分类变量指标化 81

6.4.3 分类变量合并 83

6.4.4 分类变量和数值变量互相转换 83

6.4.5 变量和数据的删除 83

6.5 离群点数据的处理 84

6.6 本章小结 86

第7章 数据建模 87

7.1 概述 87

7.2 聚类模型 96

7.2.1 背景 96

7.2.2  K-means聚类 96

7.2.3 Ewkm聚类 100

7.2.4 层次聚类 101

7.2.5 双向聚类 105

7.3 关联规则挖掘 106

7.3.1 背景 106

7.3.2 基本术语 107

7.3.3 关联规则分类 108

7.3.4  Apriori算法 108

7.3.5 实验指导 109

7.4 传统决策树模型 114

7.4.1 背景 114

7.4.2  ID3算法 115

7.4.3  C4.5算法 116

7.4.4 实验指导 117

7.5 随机森林决策树模型 120

7.5.1 背景 120

7.5.2 随机森林算法 121

7.5.3 实验指导 122

7.6 自适应选择决策树模型 126

7.6.1 背景 126

7.6.2  Boosting算法 127

7.6.3  Adaboost算法 127

7.6.4 实验指导 128

7.7  SVM 131

7.7.1 背景 131

7.7.2  SVM算法 131

7.7.3 实验指导 133

7.8 线性回归模型 134

7.8.1 背景 134

7.8.2 一元线性回归方法 135

7.8.3 实验指导 137

7.9 神经网络模型 138

7.9.1 背景 138

7.9.2 人工神经网络模型 139

7.9.3 实验指导 142

7.10 本章小结 143

第8章 模型评估 147

8.1 概述 147

8.2 数据集 148

8.3 混淆矩阵 149

8.3.1 二分类混淆矩阵 149

8.3.2 模型评价指标 150

8.3.3 多分类混淆矩阵 151

8.4 风险图 151

8.4.1 风险图的作用 151

8.4.2 实验指导 152

8.5  ROC曲线 154

8.5.1  ROC曲线的定义 154

8.5.2  ROC曲线的作用 154

8.5.3 实验指导 155

8.6 其他模型评估图 156

8.7 本章小结 157

第9章 模型部署 159

9.1 概述 159

9.2 模型的应用 159

9.3 转换为PMML 161

9.4 电商数据挖掘案例 162

9.4.1 背景 162

9.4.2 数据理解 162

9.4.3 数据准备 163

9.4.4 清洗数据 166

9.4.5 探索数据 167

9.4.6 数据建模 172

9.5 本章小结 174

参考文献 175

相关图书
作者其它书籍
返回顶部