第Ⅰ部分 预备知识 3
第1章 统计学的内容 3
1.1 统计学是什么 3
1.2 描述性和推断性统计 3
1.3 关于大气的不确定性 4
第2章 概率论回顾 6
2.1 背景 6
2.2 概率的要素 6
2.2.1 事件 6
2.2.2 样本空间 7
2.2.3 概率公理 7
2.3 概率的意义 8
2.3.1 频率解释 8
2.3.2 贝叶斯(主观的)解释 8
2.4 概率的性质 9
2.4.1 域、子集、补集和并集 9
2.4.2 德·摩根律(DeMorgan’s Laws) 10
2.4.3 条件概率 11
2.4.4 独立性 11
2.4.5 全概率定理 13
2.4.6 贝叶斯定理 14
2.5 习题 15
第Ⅱ部分 单变量统计 19
第3章 经验分布与探索性资料分析 19
3.1 背景 19
3.1.1 鲁棒性和抗干扰性 19
3.1.2 分位数 20
3.2 数字归纳度量 21
3.2.1 位置 21
3.2.2 离散度 21
3.2.3 对称性 22
3.3 图形归纳方法 23
3.3.1 茎叶显示图 23
3.3.2 箱线图(boxplots) 25
3.3.3 示意图 25
3.3.4 箱线图的其他变异图 27
3.3.5 柱状图(直方图) 28
3.3.6 核密度平滑 29
3.3.7 累积频率分布 33
3.4 重新表示(reexpression) 35
3.4.1 幂变换 35
3.4.2 标准化距平 39
3.5 成对资料的探索技术 41
3.5.1 散点图(Scatterplots) 41
3.5.2 皮尔逊(普通)相关 42
3.5.3 Spearman秩相关和Kendall’s τ相关 46
3.5.4 序列相关 47
3.5.5 自相关函数 48
3.6 高维资料的探索性方法 49
3.6.1 星形图 50
3.6.2 符号(glyph)散点图 50
3.6.3 旋转散点图 52
3.6.4 相关矩阵 53
3.6.5 散点图矩阵 54
3.6.6 相关图 55
3.7 习题 57
第4章 参数概率分布 59
4.1 背景 59
4.1.1 参数与经验分布 59
4.1.2 什么是参数分布 59
4.1.3 参数与统计量 60
4.1.4 离散与连续分布 60
4.2 离散分布 60
4.2.1 二项分布 60
4.2.2 几何分布 63
4.2.3 负二项分布 64
4.2.4 泊松分布 66
4.3 统计期望 68
4.3.1 随机变量的期望值 68
4.3.2 随机变量函数的期望值 68
4.4 连续分布 70
4.4.1 分布函数与期望值 70
4.4.2 高斯分布 72
4.4.3 伽马分布 78
4.4.4 贝塔分布 84
4.4.5 极值分布 85
4.4.6 混合分布 90
4.5 拟合优度的定性评估 92
4.5.1 拟合的参数分布与资料柱状图的叠加 92
4.5.2 分位数-分位数(Q-Q)图 94
4.6 使用最大似然拟合参数 95
4.6.1 似然函数 95
4.6.2 牛顿-拉夫逊(Newton-Raphson)方法 96
4.6.3 EM算法 97
4.6.4 最大似然估计的抽样分布 99
4.7 统计模拟 99
4.7.1 均匀随机数生成器 100
4.7.2 通过逆变换进行的非均匀随机数生成 101
4.7.3 借助于拒绝方法的非均匀随机数生成 103
4.7.4 生成高斯随机数的Box-Muller方法 104
4.7.5 根据混合分布与核密度估计进行模拟 104
4.8 习题 105
第5章 频率统计推断 108
5.1 背景 108
5.1.1 参数与非参数推断 108
5.1.2 抽样分布 108
5.1.3 任何假设检验的基本要素 109
5.1.4 检验水平和p值 109
5.1.5 错误类型和检验能力 110
5.1.6 单侧与双侧检验 111
5.1.7 置信区间:转化的假设检验 111
5.2 一些常见的参数检验 114
5.2.1 单样本t检验 114
5.2.2 独立情况下平均值差值的检验 115
5.2.3 成对样本平均值差异的检验 117
5.2.4 序列不独立情况下平均值差值的检验 118
5.2.5 拟合优度检验 120
5.2.6 似然比检验 127
5.3 非参数检验 128
5.3.1 对位置的经典非参数检验 128
5.3.2 Mann-Kendall趋势检验 134
5.3.3 对重新抽样检验的介绍 136
5.3.4 置换(permutation)检验 137
5.3.5 自助法(Bootstrap) 139
5.4 多重性与“场的显著性” 144
5.4.1 独立检验的多重性问题 145
5.4.2 场的显著性和错误发现率 146
5.4.3 场的显著性与空间相关 147
5.5 习题 150
第6章 贝叶斯推断 152
6.1 背景 152
6.2 贝叶斯推断的结构 152
6.2.1 连续变量的贝叶斯理论 152
6.2.2 推断和后验分布 155
6.2.3 先验分布的作用 156
6.2.4 预测分布 157
6.3 共轭分布 158
6.3.1 共轭分布的定义 158
6.3.2 二项分布的资料生成过程 158
6.3.3 泊松资料生成过程 161
6.3.4 高斯资料生成过程 164
6.4 困难积分的处理 166
6.4.1 马尔科夫链的蒙特卡洛(MCMC)方法 166
6.4.2 Metropolis-Hastings算法 167
6.4.3 Gibbs取样器(Sampler) 170
6.5 习题 172
第7章 统计预报 173
7.1 背景 173
7.2 线性回归 173
7.2.1 简单线性回归 173
7.2.2 残差的分布 175
7.2.3 方差分析表 177
7.2.4 拟合优度度量 177
7.2.5 回归系数的抽样分布 179
7.2.6 诊断残差 181
7.2.7 预报区间 185
7.2.8 多元线性回归 187
7.2.9 多元回归中导出的预报因子变量 188
7.3 非线性回归 191
7.3.1 广义线性模型 191
7.3.2 Logistic回归 191
7.3.3 泊松回归 195
7.4 预报因子的选择 196
7.4.1 为什么精心选择预报因子是重要的 196
7.4.2 筛选预报因子 199
7.4.3 停止准则 201
7.4.4 交叉验证 203
7.5 使用传统统计方法的客观预报 205
7.5.1 经典的统计预报 205
7.5.2 完美预报(PP)和MOS 207
7.5.3 业务的MOS预报 212
7.6 集合预报 214
7.6.1 概率的场预报 214
7.6.2 相空间中的随机动力系统 215
7.6.3 集合预报 217
7.6.4 选择初始集合成员 218
7.6.5 集合平均和集合离散度 219
7.6.6 集合预报信息的图形显示 220
7.6.7 模式误差的影响 227
7.7 集合MOS 228
7.7.1 为什么集合需要后处理 228
7.7.2 回归方法 229
7.7.3 核密度(集合“加工(Dressing)”)方法 233
7.8 主观概率预报 235
7.8.1 主观预报的性质 235
7.8.2 主观分布 236
7.8.3 中心置信区间预报 236
7.8.4 评估离散概率 238
7.8.5 评估连续分布 239
7.9 习题 240
第8章 预报检验 242
8.1 背景 242
8.1.1 预报检验的目的 242
8.1.2 预报和观测的联合分布 243
8.1.3 预报性能的标量属性 244
8.1.4 预报技巧 245
8.2 离散预报量的非概率预报 246
8.2.1 2×2的列联表 246
8.2.2 2×2列联表的标量性质 247
8.2.3 对2×2列联表的技巧评分 250
8.2.4 哪种评分 253
8.2.5 概率到非概率预报的转换 253
8.2.6 对多种类离散预报量的扩展 255
8.3 连续预报量的非概率预报 260
8.3.1 条件分位数图 260
8.3.2 标量精确性量度标准 260
8.3.3 技巧评分 262
8.4 离散预报量的概率预报 264
8.4.1 二分类事件的联合分布 264
8.4.2 Brier评分 265
8.4.3 Brier评分的代数分解 266
8.4.4 可靠性图 268
8.4.5 判别图 272
8.4.6 对数或无知评分 273
8.4.7 ROC图 274
8.4.8 模棱两可的预报(hedging)和严格正确的评分规则 277
8.4.9 多分类事件的概率预报 278
8.5 连续预报量的概率预报 281
8.5.1 完全的连续预报概率分布 281
8.5.2 中心置信区间预报 283
8.6 对场的非概率预报 284
8.6.1 对场预报的综合考虑 284
8.6.2 S1评分 286
8.6.3 均方误差 287
8.6.4 距平相关 291
8.6.5 基于空间结构的场检验 293
8.7 集合预报的检验 295
8.7.1 好的集合预报的特征 295
8.7.2 检验秩柱状图 297
8.7.3 最小生成树(MST)柱状图 300
8.7.4 遮蔽和限界盒 301
8.8 基于经济价值的检验 301
8.8.1 最优决策和花费/损失比问题 301
8.8.2 价值评分 303
8.8.3 与其他检验方法的关系 304
8.9 观测不确定时的检验 305
8.10 对检验统计量的抽样和推断 306
8.10.1 列联表统计量的抽样特征 307
8.10.2 ROC图的抽样特征 309
8.10.3 Brier评分和Brier技巧评分推断 310
8.10.4 可靠性图的抽样特征 311
8.10.5 再抽样检验统计量 312
8.11 习题 313
第9章 时间序列 317
9.1 背景 317
9.1.1 平稳性 317
9.1.2 时间序列模型 318
9.1.3 时域方法与频域方法 318
9.2 时域——I.离散资料 318
9.2.1 马尔科夫链 318
9.2.2 两状态的一阶马尔科夫链 319
9.2.3 独立性检验与一阶序列依赖性检验 322
9.2.4 两状态马尔科夫链的一些应用 324
9.2.5 多状态马尔科夫链 325
9.2.6 高阶马尔科夫链 326
9.2.7 马尔科夫链阶数的选择 327
9.3 时域——Ⅱ.连续资料 329
9.3.1 一阶自回归 329
9.3.2 更高阶的自回归 332
9.3.3 AR(2)模型 333
9.3.4 阶数选择标准 336
9.3.5 时间平均的方差 337
9.3.6 自回归滑动平均模型 339
9.3.7 用连续时域模型模拟和预报 340
9.4 频域——Ⅰ.谐波分析 343
9.4.1 余弦(Cosine)和正弦(Sine)函数 343
9.4.2 用谐波函数表示一个简单的时间序列 344
9.4.3 单个谐波振幅和位相的估计 346
9.4.4 更高的谐波 349
9.5 频域——Ⅱ.谱分析 351
9.5.1 作为不相关回归预报因子的谐函数 351
9.5.2 周期图或傅里叶线谱 353
9.5.3 计算谱 356
9.5.4 混频 357
9.5.5 自回归模型的谱 359
9.5.6 谱估计的抽样性质 361
9.6 习题 366
第Ⅲ部分 多变量统计 371
第10章 矩阵代数与随机矩阵 371
10.1 多元统计的背景 371
10.1.1 多元统计与一元统计之间的比较 371
10.1.2 资料和基本符号的组织 371
10.1.3 普通一元统计的多元扩展 372
10.2 多元变量的距离 373
10.2.1 欧氏距离 373
10.2.2 马氏(统计)距离 374
10.3 矩阵代数回顾 375
10.3.1 向量 375
10.3.2 矩阵 377
10.3.3 方阵的特征值和特征向量 384
10.3.4 对称矩阵的平方根 387
10.3.5 奇异值分解(SVD) 389
10.4 随机向量与矩阵 390
10.4.1 一元变量概念的期望值及其他扩展 390
10.4.2 分块向量和矩阵 391
10.4.3 线性组合 392
10.4.4 再谈马氏距离 394
10.5 习题 395
第11章 多元正态(MVN)分布 397
11.1 MVN的定义 397
11.2 MVN的四个便捷属性 399
11.3 评估多元正态性 401
11.4 来自多元正态分布的模拟 404
11.4.1 模拟独立的MVN变量 404
11.4.2 模拟多元时间序列 405
11.5 关于多元正态平均向量的推断 407
11.5.1 多元中心极限定理 408
11.5.2 Hotelling的T2 408
11.5.3 同时的置信陈述 413
11.5.4 多元统计显著性的解释 416
11.6 习题 418
第12章 主分量(EOF)分析 420
12.1 主分量分析基础 420
12.1.1 PCA的定义 420
12.1.2 基于协方差矩阵的PCA与基于相关矩阵的PCA 424
12.1.3 PCA的各种术语 427
12.1.4 PCA中的尺度化规则 428
12.1.5 与多元正态分布的联系 429
12.2 PCA在地球物理领域的应用 430
12.2.1 单一场的PCA 430
12.2.2 多个场同时的PCA 432
12.2.3 方差的尺度化考虑和均衡 434
12.2.4 区域大小的影响:布伊尔(Buell)模态 434
12.3 主分量的截断 435
12.3.1 为什么截断主分量 435
12.3.2 主观截断标准 436
12.3.3 基于最后保留的特征值大小的标准 437
12.3.4 基于假设检验思想的标准 438
12.3.5 基于保留的主分量中结构的标准 439
12.4 特征值和特征向量的抽样性质 439
12.4.1 多元正态资料的渐进抽样结果 439
12.4.2 有效的多重态 440
12.4.3 North等的经验法则(大拇指标准) 441
12.4.4 抽样分布的自助(bootstrap)近似 443
12.5 特征向量的旋转 443
12.5.1 为什么旋转特征向量 443
12.5.2 旋转机理 444
12.5.3 正交旋转对初始特征向量尺度的敏感性 446
12.6 计算上的考虑 448
12.6.1 从[S]中直接提取特征值和特征向量 448
12.6.2 通过SVD做PCA 449
12.7 PCA另外的一些应用 450
12.7.1 奇异谱分析(SSA):时间序列的PCA 450
12.7.2 主分量回归 453
12.7.3 Biplot 454
12.8 习题 455
第13章 典型相关分析(CCA) 456
13.1 CCA基础 456
13.1.1 回顾 456
13.1.2 典型变量、典型向量和典型相关 456
13.1.3 CCA另外的一些性质 458
13.2 CCA应用到场 462
13.2.1 转换典型向量为图 462
13.2.2 CCA与PCA组合 463
13.2.3 用CCA做预报 463
13.3 计算上的考虑 466
13.3.1 通过直接的特征分解计算CCA 466
13.3.2 通过SVD做CCA 467
13.4 最大协方差分析(MCA) 469
13.5 习题 471
第14章 判别与分类 472
14.1 判别与分类的比较 472
14.2 将两个总体分开 472
14.2.1 等协方差结构:Fisher的线性判别 472
14.2.2 Fisher多元正态资料的线性判别 476
14.2.3 最小化误分类的期望花费 476
14.2.4 不相等的协方差:二次判别 478
14.3 多重判别分析(MDA) 479
14.3.1 超过两组时Fisher的步骤 479
14.3.2 最小化误分类的期望花费 482
14.3.3 概率分类 482
14.4 用判别分析做预报 483
14.5 经典判别分析的替代方法 485
14.5.1 使用logistic回归的判别与分类 485
14.5.2 使用核密度估计的判别与分类 486
14.6 习题 487
第15章 聚类分析 488
15.1 背景 488
15.1.1 聚类分析与判别分析 488
15.1.2 距离度量和距离矩阵 488
15.2 逐级聚类 489
15.2.1 使用距离矩阵的归并方法 489
15.2.2 Ward的最小方差法 491
15.2.3 树状图或树图 491
15.2.4 分为多少类 492
15.2.5 分割法 496
15.3 非逐级聚类 496
15.3.1 K-均值法 496
15.3.2 有核的归并聚类 497
15.3.3 用混合分布聚类 497
15.4 习题 498
附录 499
附录A 书中例子的资料集 499
附录B 概率表 501
附录C 习题答案 507
参考文献 515