目录 3
上篇 3
一 定类数据分析 3
1 介绍 3
1.1 预备知识 3
1.2 定类变量的分析 9
2 卡方检验 9
2.1 卡方检验的解释 13
3 相关的量度 20
3.1 介绍 20
3.2 2×2表格的相关量度 24
3.3 I×J表格的相关量度法 31
3.4 相关量度的比较 43
4 多元数据分析的介绍 52
4.1 定类变量的因果分析 54
5 结论 56
参考文献 58
注释 58
二 定序数据分析 60
简介 60
1 定序量度 61
1.1 定序变量分析的三个问题 63
2 单个观测值的二元预测 69
2.1 总体和样本 69
2.2 已知自变量状态的预测 69
2.3 自变量状态未知的预测 70
2.4 ? δ量度 71
2.5 象限量度:专门应用于定序变量 75
2.6 科恩Kappa(Cohen’s Kappa):另一种量度 78
2.7 定序变量预测的灵敏度分析:可靠性(信度)评估 79
3 成对观测值的二元预测 83
3.1 计算合并的定序数据 83
3.2 对合并定序表格的预测 85
3.3 合并表格的概率形式 87
3.4 合并定序形式的灵敏度分析 89
3.5 排除所有同分的预测域 90
3.6 排除一个变量的同分的预测域 91
3.7 从预测域去掉一个单元格而非一行或一列 94
3.8 不同预测域的比较 95
3.9 一致和不一致:回顾 95
3.10 再次标准化:肯德尔τc(Kendall’s τc) 96
3.11 肯德尔τ2b(Kendall’s τ2b):合并表格的混合预测方法以及与定量变量预测的类似之处 96
4 定量,定类和定序变量的联合预测 100
4.1 定量变量 100
4.2 定类变量和扩展形式 101
5 多元分析 104
5.1 建立三元合并表 105
5.2 模仿二元预测的三元预测 106
5.3 多元? 108
5.4 部分? 109
6 计算方法和统计推论 114
6.1 计算机软件 114
6.2 统计推论 115
6.3 小结 115
参考文献 116
注释 116
三 方差分析 118
1 导论 118
2 一维方差分析:所有类别 121
2.1 两组比较 121
2.2 两组以上 131
3 二维方差分析,所有类别 141
3.1 不相关的解释变量 141
3.2 相关的解释变量 156
3.3 特殊主题 161
4 方差分析,定类样本 164
4.1 一维分析 164
4.2 两个解释变量 168
5 其他模型 171
5.1 混合模型(Mixed Models) 171
5.2 三个解释变量 171
5.3 拉丁方设计 172
5.4 嵌套设计(Nested Designs) 175
5.5 方差分析与回归分析 177
6.1 回顾 180
6 结论 180
6.2 其他论题 182
参考文献 183
四 关联的量度 184
1 导论 184
2 离散数据的抽样分布 187
2.1 二项分布和多项分布 187
2.2 列联表 189
3 定类数据关联的量度 190
3.1 以卡方统计值为基础的量度 191
3.1.1 皮尔逊(PEARSON)均方列联系数 191
3.1.2 皮尔逊(PEARSOON)列联系数与斯科达(SAKODA)的修正 191
3.1.3 楚普洛夫(TSCHUPROW)列联系数 192
3.1.4 克莱姆(CRAMER)列联系数 192
3.2 消减预测误差比例的量度系数 194
3.2.1 古德曼—克鲁斯凯(GOODMAN-KRUSKAL)λ系数 194
3.2.2 古德曼—克鲁斯凯(GOODMAN-KRUSKAL)τ系数 200
3.3 一致性的量度 206
3.3.1 科恩(COHEN)κ系数与加权κ系数 207
3.3.2 科尔曼—莱特(COLEMAN-LIGHT)条件一致性量度系数 211
3.4 针对2×2列联表的特定量度系数 213
3.4.1 以交叉乘积比为基础的量度系数 213
3.4.2 以相关系数为基础的量度系数 217
4 量度连续(定距)数据的相关 218
4.1 皮尔逊(PEARSON)积矩相关系数 219
4.2 肯德尔(KENDALL)τ系数 223
4.3 斯皮尔曼(SPEARMAN)秩相关系数 229
5.1 初步 235
5 量度定序数据的关联 235
5.2 肯德尔(KENDALL)τb系数 239
5.3 与肯德尔(KENDALL)τb系数有关的量度系数 243
5.3.1 肯德尔—斯图尔特(KENDALL-STUART)τc系数 243
5.3.2 古德曼—克鲁斯凯(GOODMAN-KRUSKAL)γ系数 245
5.3.3 萨默斯(SOMERS)d系数 247
5.3.4 威尔逊(WILSON)e系数 251
5.3.5 总结 253
5.4 其他量度系数 253
6 选择适当的量度系数 254
7 相关与因果联系 256
注释 257
参考文献 259
五 多重回归的应用 263
序 263
导言 264
1 多元回归模型:复习 264
2 设定错误 271
2.1 设定错误导致的后果 271
2.2 设定错误举例:生活满意度 273
2.3 发现和处理设定错误 275
3 量度误差 276
3.1 量度误差的后果 277
3.2 量度误差举例:生活满意度 279
3.3 发现量度误差 280
3.4 处理量度误差 281
4 多元共线性 283
4.1 多元共线性的后果 285
4.2 发现高度多元共线性 286
4.3 多元共线性举例:生活满意度 287
4.4 处理多元共线性 289
5 非线性和不可加性 292
5.1 发现非线性和不可加性 293
5.2 处理非线性 296
5.3 处理不可加性 301
5.4 非线性和不可加性模型的注意事项 306
6 异方差和自相关 306
6.1 出现异方差和自相关的原因 307
6.2 异方差和自相关导致的后果 309
6.3 发现异方差 310
6.4 异方差举例:收入和租房 312
6.5 处理异方差和自相关 315
7 结束语 317
注释 318
参考文献 319
下篇 323
一 线性概率模型、对数概率模型和正态概率模型 323
丛书编辑引言 323
1.1 引言 324
1 线性概率模型 324
1.2 多元线性回归模型回顾 325
1.3 二项因变量和线性概率模型 327
1.4 重复数据的二项因变量 333
1.5 多项(Polytomous)或多类别(Multiple Category)因变量 335
1.6 线性假定 336
1.7 线性假定错误的后果 338
2.1 引言 341
2.2 模型设定的一般问题 341
2 非线性概率模型的设定 341
2.3 二项情形的其他非线性函数式 342
2.4 从行为模型推导非线性转换(Nonlinear Transformations) 345
2.5 多项变量的非线性概率设定 347
2.6 对数概率模型设定和正态概率模型设定的行为 350
2.7 摘要 355
3 二项应变量正态概率模型和对数概率模型的估计 356
3.1 引言 356
3.2 模型假定 356
3.3 最大似然估计(Maximum Likelihood Estimation) 357
3.4 估值的性质 360
3.5 最大似然估计结果的解释和推断 361
3.6 结论 371
4 最小卡方估计和多项模型 372
4.1 引言 372
4.2 重复、二项数据的最小卡方估计 372
4.3 多项因变量 377
5.2 总结 382
5.1 引言 382
5 总结和扩展 382
5.3 扩展 384
注释 387
参考文献 393
二 回归的解释与应用 395
丛书编辑导言 395
1 导论 396
2 基础回归理论与社会科学实践 400
2.1 实例 403
3 回归估计的统计性质 412
3.1 回归系数的一致性 415
4 回归系数的抽样分布 417
4.1 解释置信区间 420
4.2 比较实际显著性与统计显著性 423
5 选择一种设定 427
5.1 函数形式 431
5.2 变量的选择和决定系数R2 432
5.3 拟合优度的其他测量方法 435
6 变量的重要性 439
6.1 理论重要性 440
6.2 数量重要性 441
6.3 离散重要性 443
7 结论 446
附录 对回归一致性结果的证明 447
注释 448
参考文献 450
三 时间序列分析:回归技术 452
1 导论 452
2.1 比率目标假定(A Ratio Goal Hypothesis) 453
2 时间序列回归分析:非滞后的情况 453
2.2 误差项 455
2.3 时间序列回归模型 460
2.4 非自回归假定 461
2.5 违反自回归假设的后果 465
2.6 对自相关的传统检验 470
2.7 另一种估计方法 473
2.8 EGLS估计(一阶自相关) 476
2.9 小样本性质 478
2.10 重新考虑比率目标假设 479
2.11 扩展到多元回归 483
2.12 结论 483
3 其他备择的时变过程 484
3.1 其他备择过程 485
3.2 对高阶过程的检验 489
3.3 过程判定 491
3.4 估计 493
3.5 例子:对含有其他时变过程产生的误差项的模型估计 493
3.6 例子:重新考虑比率目标模型 496
3.7 结论 497
4 时间序列回归分析:滞后的情况 497
4.1 分布滞后模型(Distributed Lag Model) 497
4.2 滞后的内生变量 499
4.3 在有滞后内生变量的模型中检验自相关 504
4.4 估计 505
4.5 EGLS估计 505
4.6 例子 506
4.7 修订后的比率目标模型 509
4.8 解释分布滞后模型 510
4.9 结论 512
5 预测 513
5.1 预测误差 514
5.2 预测的产生 516
5.3 对预测公式进行修正 517
5.4 预测评估 519
5.5 例子:预测美国的防卫支出 521
6 总结 524
5.6 结论 524
注释 525
附录 防卫支出数据(单位:10亿美元) 525
参考文献 526
四 事件史分析法——用于纵向数据的回归分析法 529
丛书编辑序 529
1 导论 530
1.1 事件史分析存在的问题 531
1.2 事件史数据分析法概述 533
2.1 离散时间分析法例解 535
2 离散时间事件史数据分析法 535
2.2 离散时间风险率(Discrete-Time Hazard Rate) 536
2.3 对数比率回归模型(logit regression model) 537
2.4 对模型进行估计 538
2.5 生物化学家例子的系数估计 539
2.6 似然比卡方检验(The Likelihood-Ratio Chi-square Test) 540
2.7 离散时间法存在的问题 541
3 连续时间数据的参数分析法 542
3.1 连续时间风险率 542
2.8 离散时间与连续时间 542
3.2 连续时间的回归模型 543
3.3 最大似然估计 545
3.4 一个经验实例 545
3.5 截删 547
3.6 某些其他的模型 548
3.7 怎样选择模型 549
3.8 未观测的异质性来源 550
4 比例风险模型和部分似然估计 551
4.1 比例风险模型 552
4.2 部分似然估计 552
4.3 将部分似然估计法用于一个经验实例 553
4.4 时变性解释变量 554
4.5 时变性解释变量的问题 554
4.6 比例风险模型的精确性 555
4.7 时间尺度原点的选择 557
4.8 离散时间数据的部分似然估计法 558
5.1 多类事件的分类 559
5 多类事件史的数据估计分析法 559
5.2 多类事件估计法 561
5.3 竞争风险模型 562
5.4 竞争风险模型例解 564
5.5 不同类型事件之间的独立性问题 566
6 重复事件分析法 567
6.1 一种比较简单的分析方法 567
6.2 重复事件分析存在的问题 569
6.4 左截删 571
6.3 将重复事件分析法扩展应用于累犯问题分析 571
7 状态变化情况下的事件史分析法 572
7.1 转换率 573
7.2 工作变动问题分析 574
7.3 简化模型 578
8 结论 579
附录A 最大似然和部分似然 580
附录B GLIM、SAS和BMDP程序实例清单 584
附录C 计算机程序 588
注释 591
参考文献 592