第Ⅰ部分 使用R进行数据挖掘的准备 1
第1章 基于R的数据分析入门 3
1.1 R及RStudio的安装 4
1.2 RStudio的基本操作 6
1.3 R语言入门 10
1.3.1作为计算器使用的方法 10
1.3.2向量——R的基本数据结构 11
1.3.3向量变量的赋值和运算 12
1.3.4数组和矩阵 13
1.3.5因子型 15
1.3.6列表 16
1.3.7数据框 17
1.4获取外部数据 18
1.5数据汇总 19
1.6安装程序包 21
1.7基于dplyr程序包的数据框操作 22
1.8数据的可视化 25
1.8.1柱状图 26
1.8.2直方图 29
1.8.3箱形图 30
1.8.4散点图 32
1.8.5逐层绘制的图 34
第2章 数据挖掘概述 36
2.1大数据和数据挖掘 36
2.2 CRISP-DM 37
2.2.1业务理解 37
2.2.2数据理解 38
2.2.3数据准备 38
2.2.4建模 39
2.2.5评估 39
2.2.6运用 39
2.3数据挖掘的方法 40
2.3.1数据的种类和建模 40
2.3.2预测和判别 41
2.3.3分类和聚类 41
2.3.4维规约 41
2.3.5规则发现 41
第Ⅱ部分 数据挖掘方法 43
第3章 回归分析 45
3.1一元回归分析 45
3.2多元回归分析 50
第4章 Logistic回归分析 60
4.1数据准备 60
4.2使用一个解释变量进行预测 61
4.3使用两个及以上的解释变量进行预测 67
第5章 决策树分析 71
5.1使用分类树的判别 71
5.2使用回归树的预测 78
第6章 支持向量机 82
6.1支持向量机的概念 82
6.2类别预测的例子 84
6.3数值预测的例子 87
第7章 记忆基础推理 90
7.1 k最近邻法的概念 90
7.2变量的基准化和标准化 95
第8章 聚类分析 97
8.1聚类分析的概念 97
8.2层次聚类分析 98
8.3执行层次聚类分析 100
8.4可视化进阶 104
8.5非层次聚类分析 108
8.6执行非层次聚类分析 108
第9章 自组织映射 111
9.1自组织映射的概念 111
9.2基于自组织映射的分析实例 112
9.3基于自组织映射的分类 121
第10章 主成分分析 130
10.1主成分分析的概念 130
10.2对象数据的准备 133
10.3执行主成分分析 136
第11章 对应分析 141
11.1对应分析 141
11.2多重对应分析 144
第12章 关联规则分析 149
12.1关联规则及其评价指标 149
12.2关联规则分析的实例 150
12.3关联规则分析的应用实例 159
第Ⅲ部分 数据挖掘实战 165
第13章 对各种预测方法的评估 167
13.1关于预测方法的评估 167
13.2类别预测的判别方法的比较 168
13.2.1 Logistic回归分析 168
13.2.2决策树分析 173
13.2.3支持向量机 175
13.3数值预测方法的比较 176
13.3.1多元回归分析 176
13.3.2决策树分析 178
13.3.3支持向量机 180
第14章 用股价数据生成综合指数 181
14.1获取股价数据 181
14.2根据股价数据生成综合指数 183
第15章 SNS数据的分析 189
15.1微博API 189
15.2通过R获取微博信息 192
15.3分词及词频统计 195
15.4词云图 197