第1章 数据分析基础 1
1.1统计基础 1
1.1.1概率与统计 1
1.1.2统计量与分布 9
1.1.3参数估计 14
1.1.4假设检验 19
1.2软件与开发工具介绍 24
1.2.1数据库软件 24
1.2.2计算软件 26
1.2.3开发软件 30
第2章 数据预处理 34
2.1数据获取 34
2.2数据预处理过程 38
2.3数据清洗 41
2.3.1缺失值处理 41
2.3.2重复值处理 45
2.4数据集成 45
2.5数据变换 48
2.6数据规约 53
第3章 R使用入门 59
3.1 R的获取和安装 59
3.2 R的使用 61
3.3 R的包 63
3.4 R的数据对象与数据操作 65
3.5 R数据的导入与导出 74
3.6 R的条件控制与循环 81
3.7 R数据预处理 83
3.8 R的概率分布 91
第4章 R图形分析 93
4.1初始化图形 93
4.1.1图形的建立与保存 93
4.1.2图形的组合 95
4.1.3一个实例 97
4.2高级绘图命令 98
4.3低级绘图命令 100
4.4绘图参数 101
4.4.1颜色 101
4.4.2文本属性 103
4.4.3符号和线条 104
4.4.4标题 106
4.4.5图例 106
4.4.6坐标轴 108
4.5图形库 110
4.5.1直方图 110
4.5.2条形图 111
4.5.3散点图 114
4.5.4饼图 115
4.5.5箱线图 116
4.5.6矩阵图 117
4.5.7马赛克图 118
4.5.8热图 119
4.5.9 QQ图 120
4.5.10平行坐标图 121
第5章 方差分析 123
5.1方差分析的基本过程 123
5.1.1单因素方差分析 125
5.1.2双因素方差分析 129
5.2方差分析的R实现 135
5.2.1单因素方差分析R实现 135
5.2.2双因素方差分析 139
5.3多因素方差分析的R实现 143
第6章 回归分析 146
6.1线性回归模型 146
6.2线性回归模型的统计分析 149
6.3线性回归分析在R中的实现 151
6.4 Logistic回归原理 156
6.5 Logistic模型的求解 160
6.6 Logistic回归模型的评价和检验 162
6.7多Logistic回归的分类与应用 164
6.8逐步Logistic回归分析 170
6.9 Logistic回归的R实践 171
第7章 聚类与分类分析 188
7.1聚类分析 189
7.2聚类中的距离度量 191
7.2.1连续性数值变量的距离度量方法 192
7.2.2离散型属性变量的距离度量方法 195
7.2.3 R距离度量的实现 196
7.3层次聚类法 198
7.3.1凝聚式聚类 199
7.3.2层次聚类R实现 201
7.4 K-均值聚类 204
7.5数据分类 207
7.5.1决策树方法 208
7.5.2贝叶斯分类 217
7.5.3 SVM方法 222
7.5.4 KNN分类 231
第8章 EM算法和MCMC方法 235
8.1 EM算法 235
8.1.1初识EM算法 235
8.1.2 EM算法简述 236
8.1.3经典例题 237
8.1.4两个重要的定理 242
8.2 MCMC方法 243
8.2.1初识MCMC方法 243
8.2.2 Metropolis-Hastings方法 247
8.2.3 Gibbs Sampling方法 250