第一部分 统计分析基础 1
第1章 概述 1
1.1 为什么使用R语言 2
1.2 R的安装 3
1.3 RStudio集成环境 4
1.4 R的基础操作 4
1.5 包 9
1.6 结果的重用性 10
1.7 综合示例 11
1.8 大数据处理 11
1.9 数据挖掘 13
小结 16
习题 16
第2章 数据访问 17
2.1 数据集合 17
2.2 数据结构 18
2.3 数据的输入 27
2.4 数据的输出 35
2.5 数据集的标注 36
2.6 处理数据对象的实用函数 36
小结 37
习题 37
第3章 数据操作 39
3.1 一个示例 39
3.2 创建新变量 41
3.3 变量的重编码 42
3.4 变量的重命名 43
3.5 缺失值 44
3.6 日期型数据 46
3.7 类型转换 48
3.8 数据排序 49
3.9 数据集的合并 49
3.10 数据集取子集 50
3.11 使用SQL语句操作数据框 53
3.12 一个数据处理难题 53
3.13 数值和字符处理函数 54
3.14 数据处理难题的一套解决方案 61
3.15 控制语句 66
3.16 自定义函数 68
3.17 重构与整合 70
小结 73
习题 73
第4章 数据可视化 75
4.1 创建图形 75
4.2 简单示例 77
4.3 图形参数 78
4.4 添加文本、自定义坐标轴和图例 83
4.5 图形的组合 89
4.6 条形图 93
4.7 饼图 97
4.8 直方图 99
4.9 核密度图 100
4.10 点图 105
4.11 ggplot2包 107
小结 116
习题 116
第5章 概率与分布 117
5.1 随机抽样 117
5.2 概率分布 118
5.3 R的概率分布 122
5.4 常用分布的概率函数图 124
5.5 中心极限定理及应用 127
小结 132
习题 132
第6章 基本统计分析 133
6.1 描述性统计分析 133
6.2 频数表和列联表 139
6.3 相关系数 148
6.4 检验 152
6.5 组间差异的非参数检验 154
小结 157
习题 157
第7章 回归分析 159
7.1 概论 160
7.2 OLS回归 161
7.3 回归诊断 170
7.4 异常观测值 179
7.5 改进方法 182
7.6 选择“最佳”的回归模型 184
7.7 深度分析 188
小结 192
习题 192
第8章 方差分析 195
8.1 基本概念 195
8.2 ANOVA模型拟合 196
8.3 单因素方差分析 198
8.4 单因素协方差分析 202
8.5 双因素方差分析 206
8.6 重复测量方差分析 208
8.7 多元方差分析 210
8.8 回归实现ANOVA 214
小结 216
习题 216
第二部分 机器学习实践 218
第9章 大数据高性能计算 218
9.1 数据选择 219
9.2 数据聚合 223
9.3 数据引用 225
9.4 键与快速筛选 228
9.5 数据连接 231
9.6 数据变形 236
小结 238
习题 238
第10章 机器学习流程 239
10.1 数据探索 240
10.2 数据划分 241
10.3 数据填充 242
10.4 特征选择 246
10.5 建模与调优 251
10.6 测试与评估 257
小结 260
习题 260
第11章 有监督学习模型 261
11.1 线性回归模型 263
11.2 逻辑回归模型 269
11.3 线性判别分析模型 275
11.4 朴素贝叶斯模型 275
11.5 k近邻模型 275
11.6 决策树模型 284
11.7 随机森林模型 299
11.8 神经网络模型 309
11.9 支持向量机模型 319
小结 330
习题 330
第12章 无监督学习模型 331
12.1 k均值聚类模型 333
12.2 DBSCAN聚类模型 341
12.3 AGNES层次聚类模型 346
12.4 关联分析模型 351
小结 357
习题 357
参考文献 358