第1章 R中的函数 1
1.1引言 1
1.2创建R函数 2
1.3 匹配参数 3
1.4理解环境 5
1.5使用词法域 8
1.6理解闭包 10
1.7执行延迟计算 12
1.8创建中缀操作符 13
1.9使用替代函数 15
1.10处理函数中的错误 17
1.11调试函数 21
第2章 数据抽取、转换和加载 28
2.1引言 28
2.2下载公开数据 28
2.3读取和写入CSV文件 31
2.4扫描文本文件 32
2.5使用Excel文件 34
2.6从数据库中读取数据 36
2.7爬取网络数据 38
2.8获取Facebook数据 44
2.9使用twitteR 49
第3章 数据预处理和准备 53
3.1引言 53
3.2重命名数据变量 53
3.3转换数据类型 55
3.4使用日期格式 57
3.5添加新的记录 58
3.6过滤数据 60
3.7舍弃数据 63
3.8合并数据 64
3.9排列数据 65
3.10重塑数据 67
3.11检测缺失数据 69
3.12估计缺失数据 71
第4章 数据操作 74
4.1引言 74
4.2使用data.table加强data.frame 74
4.3使用data.table管理数据 77
4.4使用data.table执行快速聚合 82
4.5使用data.table合并大型数据集 85
4.6使用dplyr进行数据抽取和切片 88
4.7使用dplyr进行数据抽样 91
4.8使用dplyr选取列 92
4.9使用dplyr进行链式操作 94
4.10使用dplyr整理行 95
4.11使用dplyr消除重复行 97
4.12使用dplyr添加新列 98
4.13使用dplyr汇总数据 99
4.14使用dplyr合并数据 102
第5章 使用ggplot2可视化数据 105
5.1引言 105
5.2使用ggplot2创建基础图形 106
5.3改变美学映射 109
5.4引入几何对象 112
5.5执行变换 116
5.6调整图形尺度 118
5.7分面 120
5.8调整主题 122
5.9组合图形 124
5.10创建地图 126
第6章 制作交互式报告 131
6.1引言 131
6.2创建R Markdown报告 131
6.3学习markdown语法 135
6.4嵌入R代码块 137
6.5使用ggvis创建交互式图形 140
6.6理解基础语法 143
6.7控制坐标轴和图例 148
6.8使用尺度 153
6.9给ggvis图形添加交互 154
6.10创建R Shiny文档 159
6.11发布R Shiny报告 164
第7章 概率分布模拟 169
7.1引言 169
7.2生成随机样本 169
7.3理解均匀分布 171
7.4生成二项随机变量 173
7.5生成泊松随机变量 175
7.6从正态分布中抽样 177
7.7从卡方分布中抽样 183
7.8理解学生t-分布 185
7.9从数据集中抽样 187
7.10模拟随机过程 188
第8章 R中的统计推断 191
8.1引言 191
8.2获取置信区间 191
8.3执行Z-检验 196
8.4执行学生T-检验 199
8.5执行精确二项检验 202
8.6执行Kolmogorov-Smimov检验 203
8.7使用Pearson卡方检验 205
8.8理解Wilcoxon秩和检验 207
8.9执行单因素方差分析 209
8.10执行双因素方差分析 212
第9章 R语言规则和模式挖掘 216
9.1引言 216
9.2把数据转换为事务 216
9.3展示事务和关联 218
9.4使用Apriori规则挖掘关联关系 220
9.5对冗余规则剪枝 223
9.6可视化关联规则 224
9.7使用Eclat挖掘频繁项集 226
9.8使用时序信息创建事务 228
9.9使用cSPADE挖掘频繁序列模式 231
第10章 R语言时间序列挖掘 235
10.1引言 235
10.2创建时间序列数据 235
10.3绘制时间序列对象 238
10.4分解时间序列 241
10.5平滑时间序列 243
10.6预测时间序列 247
10.7选取ARIMA模型 251
10.8创建ARIMA模型 255
10.9使用ARIMA模型预测 257
10.10使用ARIMA模型预测股票价格 260
第11章 监督式机器学习 264
11.1引言 264
11.2使用1m拟合线性回归模型 264
11.3汇总线性模型拟合 266
11.4使用线性回归来预测未知值 268
11.5度量回归模型的性能 270
11.6执行多元回归分析 272
11.7使用逐步回归选取最优拟合回归模型 274
11.8应用高斯模型泛化线性回归 276
11.9执行逻辑斯谛回归分析 277
11.10使用递归分割树构建分类模型 280
11.11可视化递归分割树 282
11.12使用混淆矩阵度量模型性能 283
11.13使用ROCR度量预测性能 285
第12章 非监督式机器学习 288
12.1引言 288
12.2使用层次聚类法对数据聚类 288
12.3切割树成聚类 291
12.4使用k-means方法对数据聚类 293
12.5使用基于密度的方法对数据聚类 294
12.6从聚类中抽取轮廓信息 296
12.7比较多种聚类方法 298
12.8使用基于密度的聚类识别数字 299
12.9使用k-means聚类方法分组相似文本文档 301
12.10使用主成分分析法进行数据降维 303
12.11使用陡坡图确定主成分数量 305
12.12使用Kaiser方法确定主成分数量 306
12.13使用双标图可视化多变元数据 308