第1章 如何从海量数据中筛选你需要的数据——数据的收集 1
1.1 从柏拉图摘麦穗说起 2
1.1.1 如何摘到最大的麦穗 2
1.1.2 样本点和样本的区别 4
1.1.3 37%法则 5
1.2 新生婴儿性别比例总是趋于稳定吗 7
1.2.1 近似相等与相等的重要区别 7
1.2.2 从婴儿性别比例推广到火柴燃烧时间 9
1.2.3 大数定理在保险行业的应用 11
1.3 为什么一小部分人的意见就能代表全体人 13
1.3.1 100个人的收入能代表10000个人的收入吗 13
1.3.2 确定抽样人均收入与真实人均收入间的误差 15
1.3.3 考虑样本的最佳大小 17
1.4 一份标准试卷是怎么设计出来的 19
1.4.1 抽样时真的能做到完全随机吗 19
1.4.2 确保高考试卷的公平性 21
1.4.3 抽样调查的一些补充要点 23
第2章 小小统计量中的大奥妙——描述性统计分析 25
2.1 你知道年龄属于哪一类数据吗 26
2.1.1 如何用数字表示求职者的最高学历 26
2.1.2 统计调查中专用的数据类型有哪些 28
2.1.3 新浪微博属于哪类数据 29
2.2 平均薪资的陷阱和真相 31
2.2.1 是谁拉高了平均薪资 31
2.2.2 如何计算加权平均薪资 33
2.2.3 用四分位数估计薪资区间 35
2.3 得分高就是好球员吗 38
2.3.1 用极差、四分位差和平均差衡量球员的水平 38
2.3.2 方差和标准差的关系 41
2.3.3 消除了量纲的统计量 42
2.4 常见的社会经济统计量 44
2.4.1 国内生产总值到底是怎么核算出来的 44
2.4.2 根据国内生产总值衍生出的其他统计量 46
2.4.3 基尼系数和恩格尔系数 48
第3章 使用色彩和图形传递信息——绘制统计图表 51
3.1 为什么条形图比折线图更好 52
3.1.1 最基本的3种图形 52
3.1.2 条形图优于折线图的两个理由 56
3.1.3 直方图和条形图的区别 59
3.2 离散型变量适合绘制的图形 62
3.2.1 什么样的数据适合画饼图 62
3.2.2 有时候表格比图形更重要 65
3.2.3 马赛克图和茎叶图也是图形的一分子 67
3.3 为高维变量绘图 69
3.3.1 三维图一定比二维图美观吗 69
3.3.2 按照变量绘制高维图形 72
3.3.3 按照样本点绘制高维图形 76
3.4 好图形的3个标准 79
3.4.1 常见的几种绘图错误 79
3.4.2 一些优秀图表案例 84
第4章 用概率的眼光看世界——常用的几种概率分布 89
4.1 买彩票真的能发家致富吗 90
4.1.1 由福彩6+1的中奖概率导出二项分布 90
4.1.2 计算福彩6+1的获奖期望 93
4.1.3 超几何分布和人寿保险问题 94
4.2 几点出门才不会迟到 96
4.2.1 用二项分布逼近泊松分布 97
4.2.2 一个简单的公共汽车客流案例 99
4.2.3 如何判断一个分布是否为泊松分布 101
4.3 捕捞到金鱼的概率有多大 102
4.3.1 从水缸里捞金鱼谈到几何概率 103
4.3.2 一维均匀分布和二维均匀分布 105
4.3.3 利用均匀分布进行模拟估计 109
4.4 智商多少才是正常水平 111
4.4.1 高尔顿板实验和正态分布的联系 111
4.4.2 一元正态分布的主要性质 114
4.4.3 计算正态分布的概率 117
4.5 手提电脑的寿命到底有多长 121
4.5.1 电器寿命和指数分布的关系 121
4.5.2 从泊松过程中推导指数分布 124
第5章 用概率分布解决实际问题——参数估计和非参数估计 127
5.1 根据月账单明细估计消费水平 128
5.1.1 估计湖中的鱼苗数目 128
5.1.2 选择账单明细的方差估计量 130
5.1.3 点估计量的其他性质 132
5.2 进一步估计消费区间 133
5.2.1 估计变量是否服从正态分布 133
5.2.2 估计消费账单的区间 137
5.3 直方图估计VS核密度估计 139
5.3.1 用直方图估计花萼宽度数据的分布 140
5.3.2 使用核函数使密度函数变得平滑 142
5.3.3 K近邻估计和聚类分析 146
第6章 判断估计结果的合理性——假设检验 149
6.1 如何得知袋装面包有没有偷工减料 150
6.1.1 确定面包重量的分布 150
6.1.2 双侧假设检验 153
6.1.3 单侧假设检验 154
6.2 投放广告能增加销售额吗 157
6.2.1 检验两个正态分布的均值 157
6.2.2 检验两个正态分布的方差 160
6.2.3 有关假设检验的补充知识 162
6.3 由遛狗结果求解后验概率 165
6.3.1 轮盘赌和遛狗的条件概率 165
6.3.2 儿童智商问题与参数的区间估计 167
6.3.3 根据后验概率比进行假设检验 169
6.4 补习班真的能提高小孩成绩吗 170
6.4.1 参数检验和非参数检验的区别 170
6.4.2 利用样本的秩判断两组成绩数据是否有差别 172
6.4.3 从另一种角度检验补习班问题 174
6.5 检验离散型的顺序变量和因子变量 177
6.5.1 卡方分布就是正态分布的平方和 177
6.5.2 检验历年战争次数是否服从泊松分布 179
6.5.3 检验年龄和投票结果是否相互影响 181
第7章 从稻田试验发展出的学科——方差分析 185
7.1 从F分布推出方差分析的基本原理 186
7.1.1 从卡方分布导出F分布 186
7.1.2 方差分析的一些基本知识 188
7.2 去哪家餐厅吃饭更合算 191
7.2.1 餐厅得分的组内差异和组间差异 191
7.2.2 使用F分布检验餐厅得分是否有所不同 193
7.2.3 方差分析的多重比较问题 194
7.3 餐厅的地理位置会影响菜肴的美味程度吗 196
7.3.1 在餐厅问题中引入餐厅地理位置因素 197
7.3.2 考虑地理位置与餐厅的交互作用 199
7.3.3 从两因素方差分析推广到其他的方差分析 201
7.4 中药和西药哪个对糖尿病更有效 202
7.4.1 配对比较实验设计问题 202
7.4.2 随机化区组实验设计问题 204
第8章 统计学界的明珠——相关与回归问题 207
8.1 花瓣数据和花萼数据的关系 208
8.1.1 比较4种花朵数据的相关性 208
8.1.2 消除其他变量对相关系数的影响 211
8.1.3 计算离散型数据的相关系数 212
8.2 姚明的儿子会比姚明还高吗 214
8.2.1 父亲身高与儿子身高的相关性 215
8.2.2 使用最小二乘估计回归参数 217
8.2.3 在回归分析中引入母亲身高 219
8.2.4 使用逐步回归筛选自变量 221
8.3 收入和支出呈线性关系吗 224
8.3.1 高收入人群与低收入人群的消费模式 224
8.3.2 多项式回归和R2 228
8.3.3 广义线性回归模型和非线性回归模型 231
8.4 如何计算花朵的种类 232
8.4.1 将婚姻状态处理为哑变量 232
8.4.2 花朵种类计算结果与S分布 234
8.4.3 逻辑回归中的优势比 237
8.5 回归分析常见谬误 238
8.5.1 使用残差项检验异常值问题 238
8.5.2 DW检验和自相关问题 241
8.5.3 多重共线性和异方差问题 243