第1篇 基础篇 1
第1章 为什么要学统计 2
1.1统计学有什么用 3
1.2生活世事皆统计 4
1.3如何学统计 4
第2章 变异——统计学存在的基础 6
2.1随机与变异 6
2.2特朗普与罗斯福的胜出——抽样调查到底可不可靠 8
2.3什么是抽样误差 9
第3章 郭靖的内力能支撑多久——谈概率分布 11
3.1累积分布与概率密度的通俗理解 12
3.2是生存还是死亡?这是一个问题——用Weibull分布寻找生存规律 16
3.3 2003年的那场SARS——用Logistic分布探索疾病流行规律 20
3.4“普通”的正态分布 23
3.5几个常用分布——t分布、x2分布、F分布 28
第4章 关于统计资料类型的思考 35
4.1计数资料等于分类资料吗 36
4.2计数资料可否采用连续资料的方法进行分析 37
4.3分类资料中的无序和有序是如何确定的 38
4.4连续资料什么时候需要转换为分类资料 39
4.5连续资料如何分组——寻找cut-off值的多种方法 41
4.6什么是虚拟变量/哑变量 47
第5章 如何正确展示你的数据 52
5.1均数和中位数——你被平均了吗 53
5.2方差与标准差——变异的度量 54
5.3自由度——你有多少自由活动的范围 56
5.4百分位数——利用百分数度量相对位置 57
5.5如何比较苹果和橘子——利用Z值度量相对位置 59
5.6某百岁老人调查报告说:少运动才能活得久——谈一下比例和率 61
5.7在文章中如何正确展示百分比 63
第6章 寻找失踪的运动员——中心极限定理 64
6.1中心极限定理针对的是样本统计量而非原始数据 65
6.2样本量大于30就可以认为是正态分布了吗 67
第7章 从“女士品茶”中领会假设检验的思想 70
7.1女士品茶的故事 70
7.2零假设和备择假设 72
7.3假设检验中的两类错误 73
7.4 P值的含义 76
7.5为什么P值小于0.05(而不是0.02)才算有统计学意义 78
7.6为什么零假设要设定两组相等而不是两组不等 79
第8章 参数估计——一叶落而知秋 81
8.1点估计 81
8.2最小二乘估计 82
8.3最大似然估计 84
8.4贝叶斯估计 86
第9章 置信区间估计——给估计留点余地 88
9.1置信区间的理论与实际含义 88
9.2置信区间与P值的关系 90
9.3利用标准误计算置信区间 91
9.4利用Bootstrap法估计置信区间 92
第2篇 实用篇 98
第10章 常用统计方法大串讲 98
10.1一般线性模型——方差分析与线性回归的统一 99
10.2广义线性模型——线性回归与Logistic回归的统一 103
10.3广义可加模型——脱离“线性”束缚 107
10.4多水平模型——打破“独立”条件 112
10.5结构方程模型——从单因单果到多因多果 119
第11章 正态性与方差齐性 127
11.1用统计检验方法判断正态性 127
11.2用描述的方法判断正态性 130
11.3方差分析中的方差齐性判断 133
11.4理解线性回归中的方差齐性 135
第12章 t检验——不仅是两组比较 138
12.1从另一个角度来理解t检验 138
12.2如何正确应用t检验 140
12.3 t检验用于回归系数的检验 141
12.4 t检验的替代——Wilcoxon秩和检验 142
第13章 方差分析与变异分解 145
13.1方差分析中变异分解的思想 145
13.2为什么回归分析中也有方差分析 147
13.3铁打的方差分析,流水的实验设计 148
13.4方差分析后为什么要进行两两比较 152
13.5多重比较方法的选择建议 154
13.6所有的多组都需要做两两比较吗——兼谈固定效应和随机效应 164
13.7重复测量方差分析详解 166
13.8方差分析的替代——Kruskal-Wallis秩和检验 176
13.9多组秩和检验后的两两比较方法 178
第14章 卡方检验——有“卡”未必走遍天下 181
14.1卡方检验用于分类资料组间比较的思想 181
14.2卡方用于拟合优度评价——从Hardy-Weinberg定律谈起 184
14.3似然比x2、M-Hx2、校正x2与Fisher精确检验 186
14.4等级资料到底可不可以用卡方检验 191
14.5卡方检验的两两比较 193
14.6 Cochran-Armitage趋势检验 194
14.7分类变量的赋值是如何影响分析结果的 196
第15章 相关分析与一致性检验 200
15.1从协方差到线性相关系数 200
15.2线性相关系数及其置信区间 203
15.3如何比较两个线性相关系数有无差异 206
15.4分类资料的相关系数 207
15.5基于秩次的相关系数 210
15.6相关分析中的几个陷阱 213
15.7用ICC和CCC指标判断一致性 215
15.8用Bland-Altman图判断一致性 218
15.9 Kappa检验在一致性分析中的应用 219
第16章 线性回归及其分析思路 222
16.1残差——识别回归模型好坏的关键 223
16.2回归系数的正确理解 226
16.3回归系数检验VS模型检验 227
16.4均值的置信区间VS个体的预测区间 228
16.5逐步回归筛选变量到底可不可靠——谈变量筛选策略 230
16.6如何评价模型是好还是坏——交叉验证思路 237
16.7线性回归的应用条件——你的数据能用线性回归吗 240
16.8如何处理非正态——Box-Cox变换 247
16.9如何处理非线性——Box-Tidwell变换 248
16.10方差不齐怎么办——加权最小二乘法 250
16.11当共线性导致结果异常时怎么办——岭回归、Lasso回归 254
16.12发现异常值应该删除吗——谈几种处理异常值的方法 260
16.13如何处理缺失值——是删除还是填补 268
16.14一个非教材的非典型案例——线性回归的综合分析 276