第一部分 一般线性模型、混合线性模型和广义线性模型 3
第1章 方差分析模型 3
1.1 模型简介 3
1.1.1 模型入门 3
1.1.2 常用术语 5
1.1.3 适用条件 6
1.2 案例:胶合板磨损深度的比较 8
1.2.1 操作说明 8
1.2.2 结果解释 8
1.2.3 模型参数的估计值 11
1.2.4 两两比较 12
1.2.5 其他常用选项 14
1.3 两因素方差分析模型 15
1.3.1 案例:超市规模、货架位置与销量的关系 15
1.3.2 边际均值与轮廓图 17
1.3.3 拟合劣度检验 20
1.4 因素各水平间的精细比较 20
1.4.1 POSTHOC子句 21
1.4.2 EMMEANS子句 21
1.4.3 LMATRIX子句和KMATRIX子句 22
1.4.4 CONSTRAST子句 24
1.5 方差分析模型进阶 24
1.5.1 随机因素的方差分析模型 24
1.5.2 自定义效应检验使用的误差项 26
1.5.3 四类方差分解方法 27
思考与练习 27
参考文献 27
第2章 常用实验设计分析方法 28
2.1 仅研究主效应的实验设计方案 29
2.1.1 完全随机设计 29
2.1.2 配伍设计 30
2.1.3 交叉设计 30
2.1.4 拉丁方设计 32
2.2 考虑交互作用的实验设计方案 34
2.2.1 析因设计 34
2.2.2 正交设计 36
2.2.3 均匀设计 38
2.3 误差项变动的特殊实验设计方案 39
2.3.1 嵌套设计 39
2.3.2 重复测量设计 41
2.3.3 裂区设计 41
2.4 协方差分析 42
2.4.1 协方差分析的必要性 42
2.4.2 平行性假定的检验 44
2.4.3 计算和检验修正均值 45
思考与练习 47
参考文献 47
第3章 多元方差分析与重复测量方差分析 48
3.1 多元方差分析 48
3.1.1 模型简介 48
3.1.2 案例:教育模式比较 49
3.1.3 对案例的进一步分析 52
3.2 重复测量资料的方差分析 53
3.2.1 模型简介 53
3.2.2 案例:促销效果研究 55
思考与练习 60
参考文献 60
第4章 线性混合模型 61
4.1 模型简介 61
4.1.1 问题的提出 61
4.1.2 模型入门 62
4.2 层次聚集性数据案例 64
4.2.1 拟合基本模型结构 64
4.2.2 在固定效应中加入自变量 67
4.2.3 在随机效应中加入自变量 69
4.2.4 更多解释变量的引入 70
4.2.5 其他常用选项 71
4.3 重复测量数据案例 72
4.3.1 对数据的初步分析 73
4.3.2 拟合基本模型结构 74
4.3.3 考虑重复测量间的相关性 76
4.3.4 更改对测量间相关性的假定 78
4.3.5 模型中可用的相关阵种类 80
4.4 线性混合模型进阶 80
4.4.1 线性混合模型的用途 80
4.4.2 线性混合模型与一般线性模型的联系 81
思考与练习 81
参考文献 81
第5章 广义线性模型、广义估计方程和广义线性混合模型 82
5.1 广义线性模型 82
5.1.1 模型简介 82
5.1.2 案例分析 83
5.2 广义估计方程 85
5.2.1 方程简介 85
5.2.2 案例分析 86
5.3 广义线性混合模型 89
5.3.1 模型简介 89
5.3.2 案例分析 90
思考与练习 93
参考文献 93
第二部分 回归模型 97
第6章 多重线性回归模型 97
6.1 模型简介 97
6.1.1 基本概念 97
6.1.2 分析步骤 98
6.2 案例:销量影响因素分析 98
6.2.1 基本分析结果 99
6.2.2 回归模型的假设检验 100
6.2.3 偏回归系数的假设检验 101
6.2.4 标准化偏回归系数 101
6.2.5 衡量回归模型优劣的标准 102
6.3 回归预测、区间估计与残差分析 104
6.3.1 模型预测值 104
6.3.2 模型的区间估计 104
6.3.3 模型的残差 105
6.3.4 利用残差考察模型适用条件 106
6.4 逐步回归 109
6.4.1 筛选自变量的基本原则 109
6.4.2 常用的逐步回归方法 109
6.4.3 案例:固体垃圾排放量与土地种类的关系 111
6.5 模型的进一步诊断与修正 113
6.5.1 强影响点的识别与处理 113
6.5.2 多重共线性的识别与处理 115
6.5.3 回归模型结果解释时应注意的问题 116
6.6 自动线性建模 117
6.6.1 界面说明 117
6.6.2 案例:生成更高精度的预测模型 119
思考与练习 121
参考文献 121
第7章 线性回归的衍生模型 122
7.1 非直线趋势的处理:曲线直线化 122
7.1.1 模型简介 122
7.1.2 案例:通风时间和毒物浓度的曲线方程 123
7.1.3 使用曲线估计过程分析 124
7.2 方差不齐的处理:加权最小二乘法 126
7.2.1 模型简介 126
7.2.2 案例:不等量样品数据的回归方程 126
7.2.3 使用WLS过程分析 128
7.3 共线性的处理:岭回归 130
7.3.1 模型简介 130
7.3.2 案例:用外形指标推测胎儿周龄 130
7.4 分类变量的数值化:最优尺度回归 132
7.4.1 模型简介 132
7.4.2 案例:生育子女数的回归模型 133
7.4.3 应用最优尺度方法注意事项 137
思考与练习 138
参考文献 138
第8章 路径分析入门 139
8.1 两阶段最小二乘法 139
8.1.1 模型简介 139
8.1.2 案例:人口背景资料对收入的影响 140
8.1.3 使用2SLS过程进行分析 141
8.2 路径分析入门 143
8.2.1 模型简介 144
8.2.2 案例:住院费用影响因素研究 146
8.3 偏最小二乘法入门 148
8.3.1 模型简介 148
8.3.2 软件实现 149
思考与练习 149
参考文献 149
第9章 非线性回归模型 150
9.1 模型简介 150
9.1.1 问题的提出 150
9.1.2 模型框架 150
9.2 案例:通风时间和毒物浓度的曲线方程 151
9.2.1 操作说明 151
9.2.2 结果解释 152
9.2.3 对模型的进一步分析 153
9.3 自定义损失函数:最小一乘法 154
9.4 分段回归模型的拟合 157
9.5 非线性回归模型进阶 160
9.5.1 参数初始值的设定 160
9.5.2 模型的拟合方法 161
思考与练习 161
参考文献 161
第10章 二分类Logistic回归模型 162
10.1 模型简介 162
10.1.1 模型入门 162
10.1.2 基本概念 164
10.2 案例:低出生体重儿影响因素研究 165
10.3 分类自变量的定义与比较方法 168
10.3.1 使用哑变量的必要性 168
10.3.2 SPSS中预设的哑变量编码方式 170
10.3.3 设置哑变量时的注意事项 171
10.4 自变量的筛选方法与逐步回归 172
10.4.1 模型中的假设检验方法 172
10.4.2 SPSS中提供的自变量筛选方法 173
10.4.3 案例:低体重儿数据的逐步回归 173
10.5 模型拟合效果与拟合优度检验 176
10.5.1 模型效果的判断指标 176
10.5.2 拟合优度检验 177
10.6 模型的诊断与修正 179
10.6.1 残差分析 179
10.6.2 多重共线性问题 179
思考与练习 180
参考文献 180
第11章 多分类、配对Logistic回归与Probit回归模型 181
11.1 有序多分类Logistic回归模型 181
11.1.1 模型简介 181
11.1.2 案例:工作满意度影响因素分析 182
11.1.3 模型适用条件的考察 184
11.2 无序多分类Logistic回归模型 185
11.2.1 模型简介 185
11.2.2 案例:不同背景人群的选举倾向 186
11.3 1∶1配对Logistic回归 189
11.3.1 模型简介 189
11.3.2 案例:雌激素与患子宫内膜癌的关系 190
11.4 Probit回归模型 192
11.4.1 模型简介 192
11.4.2 案例一:与Logistic模型比较 193
11.4.3 案例二:计算LD50 194
思考与练习 196
参考文献 196
第12章 对数线性模型与Poisson回归模型 197
12.1 对数线性模型简介 197
12.1.1 模型入门 197
12.1.2 软件实现 198
12.2 一般对数线性模型 198
12.2.1 初步分析 198
12.2.2 对案例的进一步分析 201
12.3 因果关系明确时的对数线性模型 202
12.4 对数线性模型的选择 203
12.4.1 模型的选择策略 203
12.4.2 案例分析 204
12.5 对数线性模型与其他模型的关系 206
12.5.1 与方差分析模型的关系 206
12.5.2 与Logistic回归的关系 206
12.6 Poisson回归模型 207
12.6.1 模型简介 207
12.6.2 案例:冠心病死亡与吸烟的关系 208
思考与练习 209
参考文献 210
第三部分 多元统计分析方法 213
第13章 主成分分析、因子分析与多维偏好分析 213
13.1 主成分分析 213
13.1.1 模型简介 213
13.1.2 案例:各省经济发展情况综合评价 215
13.2 因子分析 217
13.2.1 模型简介 218
13.2.2 案例:对各省经济数据的进一步分析 219
13.3 因子分析进阶 225
13.3.1 公因子提取方法 225
13.3.2 相关阵和协方差 226
13.3.3 如何确定公因子数量 226
13.3.4 主成分分析和因子分析的比较 226
13.4 分类数据的主成分分析(多维偏好分析) 228
13.4.1 模型简介 228
13.4.2 界面说明 229
13.4.3 案例:汽车偏好研究 231
思考与练习 235
参考文献 235
第14章 对应分析 236
14.1 模型简介 236
14.1.1 问题的提出 236
14.1.2 模型入门 236
14.1.3 软件实现 237
14.2 案例:头发颜色与眼睛颜色的关联 237
14.2.1 预分析 238
14.2.2 正式分析 239
14.2.3 分析结果的正确解释 243
14.2.4 对案例的进一步分析 243
14.3 基于均数的对应分析 245
14.3.1 方法原理 245
14.3.2 案例:各省城市市政工程建设状况的对应分析 246
14.4 对应分析进阶 249
14.4.1 特殊类别的处理 249
14.4.2 对应分析与因子分析的关系 250
14.4.3 对应分析的优势与劣势 250
14.5 基于最优尺度变换的多重对应分析 251
14.5.1 方法原理 251
14.5.2 案例:汽车用户背景资料的对应分析 251
思考与练习 254
参考文献 254
第15章 典型相关分析 255
15.1 模型简介 255
15.1.1 基本思想 255
15.1.2 数学描述 256
15.2 案例:体力指标和运动能力指标的相关分析 256
15.2.1 两组变量间的相关系数 257
15.2.2 典型相关系数及显著性检验 258
15.2.3 典型变量的系数 258
15.2.4 典型结构分析 259
15.2.5 典型冗余分析 260
15.3 典型相关分析进阶 261
15.3.1 如何应用典型相关分析 261
15.3.2 如何理解典型相关分析的结果 262
15.3.3 对应分析与典型相关分析的等价性 262
15.3.4 典型相关分析和因子分析的关系 263
15.4 基于最优尺度变换的非线性典型相关分析 263
15.4.1 方法原理 263
15.4.2 案例:多重对应分析数据的再分析 264
思考与练习 266
参考文献 266
第16章 多维尺度分析 267
16.1 不考虑个体差异的MDS模型 267
16.1.1 模型简介 267
16.1.2 案例:城市间的地面距离 268
16.1.3 距离的各种提供方式 272
16.2 考虑个体差异的MDS模型 273
16.2.1 模型简介 273
16.2.2 案例:饮料的口味差异评价 274
16.2.3 模型结果的解释与优化 277
16.3 基于最优尺度变换的MDS模型 278
16.3.1 模型简介 278
16.3.2 界面说明 278
16.3.3 案例:用PROXSCAL过程分析饮料数据 280
16.3.4 在模型中考虑更多维度 282
16.4 多维展开模型 282
16.4.1 模型简介 282
16.4.2 案例:场景和行为间的匹配关系 283
思考与练习 286
参考文献 286
第17章 聚类分析 287
17.1 模型简介 287
17.1.1 问题的提出 287
17.1.2 聚类分析入门 287
17.1.3 聚类分析的方法体系 288
17.2 K-均值聚类法 289
17.2.1 方法原理 289
17.2.2 案例:移动通信客户细分 290
17.3 层次聚类法 294
17.3.1 方法原理 294
17.3.2 案例:体操裁判打分倾向聚类 294
17.3.3 对层次聚类法的进一步讨论 298
17.4 两步聚类法 299
17.4.1 方法原理 299
17.4.2 案例:病例数据的聚类分析 301
17.5 聚类分析进阶 305
17.5.1 如何选择聚类方法 305
17.5.2 聚类结果的检验 306
17.5.3 聚类结果的解释和描述 306
17.5.4 聚类分析中应该注意的其他问题 307
思考与练习 307
参考文献 307
第18章 经典判别分析 308
18.1 模型简介 308
18.1.1 基本原理 308
18.1.2 适用条件 309
18.1.3 判别效果的评价 310
18.1.4 分析步骤 311
18.2 案例:鸢尾花种类判别 311
18.2.1 操作说明 311
18.2.2 结果解释 312
18.2.3 判别结果的图形化展示 314
18.2.4 判别效果的验证 316
18.2.5 将模型用于新样品分类 316
18.2.6 适用条件的判断 317
18.3 贝叶斯判别分析 317
18.3.1 方法原理 318
18.3.2 软件实现 318
18.4 判别分析进阶 319
18.4.1 逐步判别分析 319
18.4.2 判别分析和因子分析的相似性和差异 319
18.4.3 两类判别和多重回归的等价性 319
思考与练习 320
参考文献 320
第19章 智能判别分析方法:树模型与最近邻元素法 321
19.1 树模型简介 321
19.1.1 问题的提出 321
19.1.2 模型入门 322
19.1.3 模型特点 325
19.2 案例:移动客户流失预测 325
19.2.1 操作说明 325
19.2.2 结果解释 326
19.3 对案例的进一步分析 329
19.3.1 各自变量的重要性 329
19.3.2 考虑应用模型时的成本与收益 330
19.3.3 考虑进一步细分和剪枝 332
19.3.4 将模型输出为判别程序 333
19.4 其他树模型算法 334
19.4.1 CHAID算法和穷举CHAID算法 334
19.4.2 CRT算法 334
19.4.3 QUEST算法 335
19.5 最近邻元素法 336
19.5.1 模型简介 336
19.5.2 案例:鸢尾花种类判别 337
19.5.3 KNN模型的本质 341
思考与练习 342
参考文献 342
第20章 智能判别分析方法:神经网络 344
20.1 模型简介 344
20.1.1 基本原理 344
20.1.2 注意事项 347
20.2 案例:对低出生体重儿案例的重新分析 348
20.3 对案例的进一步分析 352
20.3.1 模型效果的图形观察 352
20.3.2 尝试将模型复杂化 354
20.3.3 纳入更多候选自变量 355
20.4 径向基神经网络 357
20.4.1 基本原理 357
20.4.2 分析案例 358
思考与练习 360
参考文献 361
第四部分 其他统计分析方法 365
第21章 信度分析 365
21.1 信度理论入门 365
21.1.1 真分数测量理论 365
21.1.2 信度与效度 366
21.1.3 内在信度与外在信度 366
21.1.4 信度的判断标准 366
21.2 案例:问卷信度分析 366
21.2.1 Alpha信度系数 367
21.2.2 对各题目的进一步分析 367
21.2.3 对真分数理论适用条件的考察 369
21.3 其余常用的信度系数 370
21.3.1 重测信度 370
21.3.2 折半信度 370
21.3.3 Guttman系数 371
21.3.4 平行模型的信度系数 371
21.3.5 严格平行模型的信度系数 372
21.3.6 评分者信度 373
21.3.7 信度系数总结 374
21.4 信度理论进阶 374
21.4.1 真分数测量理论的缺陷 374
21.4.2 概化理论入门 375
21.4.3 软件实现 376
思考与练习 377
参考文献 377
第22章 联合分析 378
22.1 模型简介 378
22.1.1 为什么使用联合分析 378
22.1.2 常用术语 379
22.1.3 分析步骤 379
22.1.4 软件实现 380
22.2 联合分析的正交实验设计 380
22.2.1 生成设计表格 381
22.2.2 输出设计卡片 382
22.3 联合分析的数据建模 383
22.3.1 Conjoint过程语法说明 383
22.3.2 案例:汽车偏好研究 385
22.3.3 对案例进一步分析 388
22.4 联合分析进阶 390
22.4.1 适应性联合分析 390
22.4.2 基于选择的联合分析 391
思考与练习 392
参考文献 392
第23章 时间序列模型 393
23.1 模型简介 393
23.1.1 基本概念 393
23.1.2 模型分类 393
23.1.3 分析步骤 394
23.1.4 软件实现 394
23.2 时间序列的建立和平稳化 395
23.2.1 填补缺失值 395
23.2.2 定义时间变量 395
23.2.3 时间序列的平稳化 396
23.3 时间序列的图形化观察 398
23.3.1 序列图 398
23.3.2 自相关图 398
23.3.3 互相关图 400
23.4 时间序列的建模与预测 402
23.4.1 指数平滑简介 402
23.4.2 ARMA模型简介 403
23.4.3 案例:NRC数据的建模预测 405
23.5 季节分解 409
23.5.1 模型简介 409
23.5.2 案例:对完整序列NRC2进行季节分解 410
思考与练习 411
参考文献 411
第24章 生存分析 412
24.1 生存分析简介 412
24.1.1 生存分析简史 412
24.1.2 基本概念 413
24.1.3 生存分析的基本内容 414
24.1.4 软件实现 415
24.2 生存函数的估计和检验 415
24.2.1 生存函数的基本估计方法 415
24.2.2 Kaplan-Meier法分析案例 416
24.2.3 寿命表法分析案例 420
24.2.4 两种方法的比较 422
24.3 Cox回归模型 422
24.3.1 模型简介 422
24.3.2 案例:术中放疗效果分析 423
24.3.3 模型结果的图形观察 426
24.4 含时间依存变量的Cox模型 427
24.4.1 时间依存协变量的种类 427
24.4.2 用时间依存模型验证比例风险性 428
24.4.3 用时间依存模型考察内在时间依存变量的影响 429
24.5 Cox模型进阶 429
24.5.1 生存分析中的分层变量 429
24.5.2 用Cox回归过程拟合1∶n配伍Logistic回归 430
24.5.3 竞争风险的Cox模型 431
思考与练习 432
参考文献 432
第25章 缺失值分析 433
25.1 缺失值理论简介 433
25.1.1 数据的缺失机制 433
25.1.2 缺失值的处理方法 434
25.2 对缺失情况的基本分析 435
25.2.1 生成缺失数据 435
25.2.2 缺失模式分析 436
25.2.3 缺失情况的统计描述 437
25.3 缺失值填充技术 438
25.3.1 列表输出 439
25.3.2 使用回归算法进行填充 439
25.3.3 使用期望最大化算法进行填充 441
25.4 多重填充 443
25.4.1 模型简介 443
25.4.2 缺失模式分析 444
25.4.3 缺失值的多重填充 444
25.4.4 采用填充后数据建模 446
思考与练习 447
参考文献 447
附录1 常见多变量/多元统计分析方法分类 448
附录2 全书案例及分析模型索引 449