第一章 引言 1
1.1 什么是科学方法? 1
1.2 什么是统计学? 3
1.3 统计学习需要的基础知识和技能 7
1.4 习题 9
第二章 数据和变量 10
2.1 变量 10
2.2 数据 12
2.3 总体、样本和抽样 14
2.3.1 几个基本概念 14
2.3.2 抽样调查方法 17
2.4 习题 19
第三章 数据的展示和描述方法 21
3.1 制表方法 21
3.2 统计图 23
3.2.1 条形图 23
3.2.2 饼图 24
3.2.3 直方图 25
3.2.4 盒形图 27
3.2.5 茎叶图 29
3.2.6 散点图 30
3.2.7 其他的图描述法 33
3.3 用少量汇总数字的描述方法 38
3.3.1 关于数据位置的汇总统计量 38
3.3.2 关于数据尺度的汇总统计量 40
3.3.3 标准得分、标准化和离群点 43
3.4 习题 45
第四章 变量的分布 46
4.1 概率和概率分布 46
4.2 概率运算回顾 48
4.3 离散型随机变量的分布 50
4.3.1 二项分布 52
4.3.2 多项分布 55
4.3.3 超几何分布 56
4.3.4 Poisson分布 59
4.4 连续型随机变量的分布 60
4.4.1 均匀分布 63
4.4.2 正态分布 64
4.4.3 总体分位数和尾概率 66
4.5 简单概率计算例子 71
4.6 用小概率事件进行判断 72
4.7 习题 73
第五章 抽样分布 75
5.1 样本函数的分布 75
5.1.1 样本均值的分布 75
5.1.2 样本均值的性质和中心极限定理 77
5.1.3 样本比例的抽样分布 80
5.2 常用的抽样分布 80
5.2.1 x2分布 80
5.2.2 t分布 81
5.2.3 F分布 84
5.3 非正态数据的正态化变换 85
5.4 统计量的一些常用函数 89
5.5 习题 90
第六章 简单统计推断:对总体参数的估计 91
6.1 点估计 91
6.2 区间估计 94
6.2.1 正态分布总体均值μ的区间估计 95
6.2.2 两个独立正态分布总体均值差μ1-μ2的区间估计 99
6.2.3 配对正态分布总体均值差μD=μ1-μ2的区间估计 101
6.2.4 总体比例(Bernoulli试验成功概率)p的区间估计 102
6.2.5 如何概算调查所需的样本量 104
6.2.6 总体比例(Bernoulli试验成功概率)之差p1-p2的区间估计 105
6.3 习题 106
第七章 简单统计推断:总体参数的假设检验 108
7.1 假设检验的过程和逻辑 108
7.2 正态总体均值的检验 115
7.2.1 对一个正态总体均值μ的t检验 115
7.2.2 对两个正态总体均值之差μ1-μ2的t检验 119
7.2.3 配对正态分布总体均值差μD=μ1-μ2的t检验 121
7.3 总体比例(Bernoulli试验成功概率)p的检验 121
7.3.1 一个总体比例p的检验 121
7.3.2 两个总体比例之差p1-p2的检验 123
7.4 关于中位数的非参数检验 124
7.4.1 非参数检验简介 124
7.4.2 单样本的关于总体中位数(或总体α分位数)的符号检验 125
7.4.3 单样本的关于对称总体中位数(总体均值)的Wilcoxon符号秩检验 127
7.4.4 比较两独立样本总体中位数的Wilcoxon秩和检验 128
7.5 习题 129
第八章 变量之间的关系 132
8.1 定性变量之间的相关 132
8.1.1 列联表 132
8.1.2 x2检验 135
8.2 定量变量之间的相关 136
8.2.1 相关关系的图形描述 136
8.2.2 相关关系的数字刻画:Pearson线性相关系数 140
8.2.3 相关关系的数字刻画:Kendall ?相关系数 143
8.3 习题 144
第九章 经典回归和分类 146
9.1 回归和分类概述 146
9.1.1 “黑匣子”说法 146
9.1.2 试图破解“黑匣子”的实践 147
9.1.3 回归和分类的区别 148
9.2 线性回归模型 149
9.2.1 因变量和自变量均为数量型变量的情形 150
9.2.2 因变量是数量型变量而自变量包含分类变量的情形 163
9.2.3 对于回归利用交叉验证的例子 169
9.3 Logistic回归 173
9.4 判别分析 177
9.5 习题 182
第十章 现代回归和分类:数据挖掘方法 184
10.1 决策树:分类树和回归树 184
10.1.1 分类树 186
10.1.2 回归树 190
10.2 组合方法:adaboost、bagging和随机森林 193
10.2.1 为什么组合? 193
10.2.2 Boosting 194
10.2.3 Bagging 198
10.2.4 随机森林 200
10.3 对于例9.6和例9.3的交叉验证结果 205
10.4 习题 207
附录:熟练使用R软件 208
参考文献 218