第1章 生活在数据时代 1
1.1 数据分析无处不在 2
1.1.1 常用的国家统计指标 2
1.1.2 制造业的数据分析应用 9
1.1.3 营销领域的数据分析应用 13
1.1.4 医疗行业的数据分析应用 15
1.2 人人都能成为数据分析师 16
1.2.1 数据分析过程 17
1.2.2 数据分析工具 21
1.2.3 数据分析师的成长之路 26
第2章 耳熟能详的数据你真的了解吗 29
2.1 数据的类型 30
2.1.1 数据的结构属性分类 30
2.1.2 数据的连续性特征分类 31
2.1.3 数据的测量尺度分类 33
2.2 数据描述的三个维度 35
2.3 数据的集中趋势描述 36
2.3.1 算术平均值 37
2.3.2 几何平均值 39
2.3.3 众数 40
2.3.4 中位数 41
2.4 数据的离散程度描述 42
2.4.1 极差 42
2.4.2 平均偏差 43
2.4.3 方差和标准差 44
2.4.4 变异系数 48
2.4.5 四分位极差 49
2.5 数据的分布形态描述 50
2.5.1 概率 50
2.5.2 概率分布 53
2.5.3 离散型概率分布:二项分布 54
2.5.4 离散型概率分布:多项分布 56
2.5.5 离散型概率分布:超几何分布 57
2.5.6 离散型概率分布:泊松分布 59
2.5.7 连续型概率分布:指数分布 62
2.5.8 连续型概率分布:均匀分布 65
2.5.9 连续型概率分布:正态分布 66
2.5.10 正态分布作为二项分布近似 73
2.5.11 正态分布作为泊松分布近似 76
第3章 数据分析的“内核”:推断分析 79
3.1 见微知著的抽样 80
3.1.1 抽样的意义 80
3.1.2 抽样方法 81
3.1.3 样本推断的理论基础 84
3.2 数据的处理 86
3.2.1 数据处理的不良案例 86
3.2.2 正确的数据存储形式 87
3.3 样本到总体的桥梁:抽样分布 88
3.3.1 抽样分布的定义 88
3.3.2 Z分布 90
3.3.3 T分布 95
3.3.4 切比雪夫定理 98
3.3.5 卡方(x2)分布 99
3.3.6 F分布 100
3.4 数据分析的第一板“斧”:参数估计 102
3.4.1 参数估计的类型 102
3.4.2 Z分布与总体均值的区间估计 104
3.4.3 T分布与总体均值的区间估计 110
3.4.4 切比雪夫定理与总体均值的区间估计 113
3.4.5 卡方(x2)分布与总体方差的区间估计 115
3.4.6 F分布与两个总体方差比的区间估计 119
3.4.7 两个总体均值差的区间估计 121
3.4.8 总体比率的区间估计 133
3.4.9 样本容量的确定 135
3.5 数据分析的第二板“斧”:假设检验 142
3.5.1 假设检验的理论基础 142
3.5.2 单样本的假设检验 150
3.5.3 两样本的假设检验 159
3.5.4 多样本的假设检验与方差分析 166
3.6 数据分析的第三板“斧”:非参数检验 184
3.6.1 非参数检验 185
3.6.2 卡方检验 187
3.6.3 Wilcoxon符号秩检验 191
第4章 数据分析的终极目的:“为我所用” 195
4.1 “相关”是继续分析的前提 196
4.1.1 相关关系 196
4.1.2 相关分析 198
4.2 “回归”是相关分析的归宿 209
4.2.1 回归分析综述 209
4.2.2 简单线性回归分析 211
4.2.3 多元线性回归分析 226
4.3 发现事物随时间变化的规律 235
4.3.1 时间序列分析综述 235
4.3.2 长期趋势分析 238
4.3.3 季节变动趋势分析 248
4.3.4 循环变动和不规则变动 252
4.3.5 时间序列分析应用 254
第5章 给数据披上靓丽“外衣”:数据可视化 259
5.1 数据的可视化 260
5.1.1 数据可视化工具 260
5.1.2 常用的统计图 261
5.2 条形图、直方图和饼图 262
5.2.1 条形图 262
5.2.2 直方图 264
5.2.3 饼图 266
5.3 线图与面积图 267
5.3.1 线图 267
5.3.2 面积图 267
5.4 散点图 268
5.5 高低图与箱线图 270
5.5.1 高低图 270
5.5.2 箱线图 271
5.6 时间序列图 272
5.7 帕累托图 274
5.8 P-P概率图和Q-Q概率图 275
5.8.1 P-P概率图 275
5.8.2 Q-Q概率图 276