1引言 1
1.1数据分析的未来 1
1.1.1趋势预测 1
1.1.2数据科学家 2
1.2工欲善其事必先利其器 4
1.2.1四大分析利器简介 4
1.2.2四大分析利器的比较 4
1.2.3数据分析工具的选择 5
1.2.4常用的数据分析软件 5
1.3数据统计分析语言R简介 9
1.3.1什么是R语言 9
1.3.2为什么要用R语言 11
1.3.3 R语言的优劣势 13
1.3.4如何发挥R的优势 14
练习题 18
2数据收集过程 19
2.1统计数据 19
2.1.1基本概念 19
2.1.2分析思路 20
2.2收集数据 20
2.2.1数据格式 20
2.2.2数据收集 21
2.3数据管理 23
2.3.1保存数据 23
2.3.2输入数据 24
2.3.3数据形式 27
练习题 29
3数据处理步骤 32
3.1基本方法 33
3.1.1基本函数 33
3.1.2自定义函数 33
3.1.3控制语句 37
3.2数据选择 39
3.2.1选取观测 41
3.2.2选取变量 41
3.2.3选取观测与变量 43
3.2.4剔除观测与变量 43
3.3数据转换 44
3.3.1修改变量名 44
3.3.2创建变量 44
3.3.3变量转换 45
3.3.4删除变量 46
3.3.5重新编码 46
3.4数据整理 48
3.4.1数据集排序 48
3.4.2数据集合并 49
3.4.3缺失数据处理 50
练习题 51
4基本统计描述 53
4.1基本图形函数 53
4.1.1高级绘图函数 54
4.1.2低级绘图函数 56
4.1.3绘图函数参数 56
4.2单变量(向量)数据分析 60
4.2.1计数数据分析 60
4.2.2计量数据分析 62
4.2.3分析函数构建 66
4.3多变量(数据框)数据分析 71
4.3.1计数类数据分析 72
4.3.2计量类数据分析 75
4.3.3计数计量数据分析 76
4.3.4应用类函数的应用 80
练习题 82
5随机变量及其分布 84
5.1随机变量及其分布 84
5.1.1离散型随机变量 85
5.1.2连续型随机变量 88
5.1.3 R语言分布函数列表 91
5.2随机抽样与随机数 93
5.2.1离散变量随机数 93
5.2.2连续变量随机数 94
5.3统计量及其抽样分布 96
5.3.1样本与统计量 96
5.3.2常用的抽样分布 97
5.3.3抽样分布的临界值 102
练习题 104
6基本统计推断方法 106
6.1正态总体的参数估计 106
6.1.1参数估计的方法 107
6.1.2均值的区间估计 108
6.2正态总体的假设检验 110
6.2.1假设检验的概念 110
6.2.2单样本均值t检验 111
6.2.3两样本均值t检验 112
6.2.4多样本均值方差分析 115
6.3分布自由的非参数统计 118
6.3.1非参数统计简介 118
6.3.2单样本非参数检验 119
6.3.3两样本非参数检验 123
6.3.4多样本非参数检验 124
6.4计数数据的统计推断 125
6.4.1单样本数据统计推断 126
6.4.2列联表数据卡方检验 128
练习题 129
7基本统计分析模型 131
7.1线性相关分析模型 131
7.1.1线性相关系数的计算 132
7.1.2相关系数的假设检验 134
7.1.3分组数据的相关分析 135
7.2线性回归分析模型 137
7.2.1一元线性回归模型 137
7.2.2多元线性回归模型 142
7.2.3多元回归模型诊断 145
7.2.4分组多元回归模型 149
7.3数据分类与模型选择 150
7.3.1数据与模型 150
7.3.2线性模型分析 151
练习题 152
8 R语言的高级应用 154
8.1R语言的编程概述 155
8.1.1 R语言编程基础 155
8.1.2 R语言编程对象 158
8.1.3 R程序的数学运算 169
8.1.4 R中字符与时间函数 171
8.2 R语言高级编程举例 172
8.2.1自定义函数的技巧 172
8.2.2自定义统计函数 174
8.2.3自定义检验函数 175
8.3 R语言高级绘图功能 178
8.3.1绘制特殊统计图 178
8.3.2 lattice绘图系统 182
8.3.3 ggplot2绘图系统 185
8.4结果输出与报告生成 190
8.4.1脚本的输入和结果的输出 190
8.4.2使用R Markdown统计分析 191
8.4.3使用R Markdown生成报告 194
8.4.4使用Markdown的好处 195
练习题 195
9 R语言大数据分析入门 197
9.1统计模拟实验 197
9.1.1随机模拟方法 197
9.1.2模拟函数的建立方法 201
9.1.3对模拟的进一步认识 203
9.2 R语言中数据库的使用 210
9.2.1为何要使用数据库 210
9.2.2关系型数据库简介 211
9.2.3 R语言数据库包 211
9.3调查数据的设计与分析 214
9.3.1调查表的设计 214
9.3.2调查数据的管理 215
9.3.3调查数据的分析 217
练习题 222
附录RStudio简介 223
参考文献 229