第1章 绪论 1
1.1 数据和大数据 1
1.2 数据分析和数据挖掘 7
1.3 数据挖掘的基本概念 12
1.4 R语言 16
第2章 初识数据 24
2.1 数据类型 24
2.2 数据的统计特性 32
2.3 相似性和相异性度量 35
2.4 实验 42
第3章 初始数据获取 49
3.1 数据获取 49
3.2 信息搜索 50
3.3 爬虫程序基本原理 53
3.4 网络爬虫 58
3.5 实验 62
第4章 数据预处理 73
4.1 为什么进行数据预处理 73
4.2 数据清理 75
4.3 数据集成 80
4.4 数据变换 82
4.5 数据归约 89
4.6 实验 97
第5章 关联分析 106
5.1 关联分析的基本概念 106
5.2 关联分析的预备知识 107
5.3 频繁项集的产生 113
5.4 规则产生 132
5.5 关联模式的评估 133
5.6 实验 138
第6章 回归 146
6.1 回归、分类和聚类的关系 146
6.2 回归的基本概念 147
6.3 线性回归 148
6.4 非线性回归 151
6.5 回归模型的评估 155
6.6 实验 156
第7章 分类 167
7.1 分类的基本概念 167
7.2 决策树分类 168
7.3 k-最近邻分类 191
7.4 贝叶斯分类 194
7.5 人工神经网络分类 198
7.6 支持向量机分类 201
7.7 组合方法分类 206
7.8 分类模型的评估 211
7.9 实验 216
第8章 聚类 234
8.1 聚类的基本概念 234
8.2 划分方法 239
8.3 层次方法 251
8.4 基于密度的方法 259
8.5 聚类方法的评估 265
8.6 实验 267
参考文献 280