第一部分 一般线性模型、线性混合模型与广义线性模型 3
第1章 方差分析模型 3
1.1模型简介 3
1.1.1模型入门 3
1.1.2常用术语 5
1.1.3适用条件 7
1.2案例:胶合板磨损深度的比较 8
1.2.1操作说明 8
1.2.2结果解释 9
1.2.3模型参数的估计值 11
1.2.4两两比较 12
1.2.5其他常用选项 14
1.3两因素方差分析模型 15
1.3.1案例:超市规模、货架位置与销售量的关系 15
1.3.2边际平均值与轮廓图 19
1.3.3拟合劣度检验 21
1.4因素各水平间的精细比较 22
1.4.1 POSTHOC子句 22
1.4.2 EMMEANS子句 22
1.4.3 LMATRIX和KMATRIX子句 23
1.4.4 CONSTRAST子句 25
1.5方差分析模型进阶 25
1.5.1含随机因子的方差分析模型 25
1.5.2自定义检验使用的误差项 27
1.5.3 4类方差分解方法 28
思考与练习 29
参考文献 29
第2章 常用的实验设计分析方法 30
2.1仅研究主效应的实验设计方案 31
2.1.1完全随机设计 31
2.1.2随机区组设计 32
2.1.3交叉设计 32
2.1.4拉丁方设计 34
2.2考虑交互作用的实验设计方案 36
2.2.1析因设计 36
2.2.2正交设计 38
2.2.3均匀设计 40
2.3误差项变动的特殊实验设计方案 42
2.3.1嵌套设计 42
2.3.2重复测量设计 44
2.3.3裂区设计 45
2.4协方差分析 45
2.4.1协方差分析的必要性 45
2.4.2平行性假定的检验 47
2.4.3计算和检验修正平均值 48
思考与练习 50
参考文献 50
第3章 多元方差分析与重复测量方差分析 51
3.1多元方差分析 51
3.1.1模型简介 51
3.1.2案例:青少年牙齿发育状况跟踪 52
3.2重复测量数据的方差分析 55
3.2.1模型简介 55
3.2.2案例:进一步考察年龄对牙齿发育的影响 57
思考与练习 61
参考文献 62
第4章 线性混合模型 63
4.1模型简介 63
4.1.1问题的提出 63
4.1.2模型入门 64
4.2层次聚集性数据案例 66
4.2.1拟合基本模型结构 66
4.2.2在固定效应中加入自变量 69
4.2.3在随机效应中加入自变量 72
4.2.4更多自变量的引入 73
4.2.5其他常用选项 74
4.3重复测量数据案例 75
4.3.1对数据的初步分析 75
4.3.2拟合基本模型结构 76
4.3.3考虑测量间的相关性 79
4.3.4更改对测量间相关性的假定 81
4.3.5模型中可用的相关矩阵种类 83
4.4线性混合模型进阶 83
4.4.1线性混合模型的用途 83
4.4.2线性混合模型与一般线性模型的联系 84
思考与练习 84
参考文献 84
第5章 广义线性模型、广义估计方程与广义线性混合模型 86
5.1广义线性模型 86
5.1.1模型简介 86
5.1.2分析案例 87
5.2广义估计方程 89
5.2.1模型简介 89
5.2.2分析案例 90
5.3广义线性混合模型 94
5.3.1模型简介 94
5.3.2分析案例 94
思考与练习 98
参考文献 98
第二部分 回归模型 101
第6章 多重线性回归模型 101
6.1模型简介 101
6.1.1基本概念 101
6.1.2分析步骤 102
6.2案例:销售收入影响因素分析 103
6.2.1基本分析结果 103
6.2.2回归模型的假设检验 105
6.2.3偏回归系数的假设检验 105
6.2.4标准化偏回归系数 105
6.2.5衡量回归模型效果的指标 106
6.3回归预测与区间估计 108
6.3.1模型预测值 108
6.3.2模型的区间估计 109
6.3.3如何将模型用于预测 110
6.4残差分析 111
6.4.1模型的残差 111
6.4.2利用残差考察模型适用条件 112
6.5逐步回归 115
6.5.1筛选自变量的基本原则 115
6.5.2常用的逐步回归方法 116
6.5.3案例:固体垃圾排放量与土地种类的关系 117
6.6模型的进一步诊断与修正 119
6.6.1强影响点的识别与处理 119
6.6.2多重共线性的识别与处理 121
6.6.3回归模型结果解释时应注意的问题 123
6.7自动线性建模 124
6.7.1界面说明 124
6.7.2案例:生成更高精度的预测模型 126
思考与练习 128
参考文献 128
第7章 线性回归的衍生模型 129
7.1非直线趋势的处理:曲线直线化 129
7.1.1模型简介 129
7.1.2案例:通风时间和毒物浓度的曲线方程 130
7.1.3使用曲线估算过程分析 131
7.2方差不齐的处理:加权最小二乘法 133
7.2.1模型简介 133
7.2.2案例:不等量样品数据的回归方程 134
7.2.3使用WLS过程分析 135
7.3共线性的处理:岭回归 137
7.3.1模型简介 137
7.3.2案例:用外形指标推测胎儿周龄 138
7.4分类变量的数值化:最优尺度回归 140
7.4.1模型简介 140
7.4.2案例:生育子女数的回归模型 141
7.4.3应用最优尺度回归方法的注意事项 145
7.5强影响点的弱化:稳健回归与分位数回归 146
7.5.1稳健回归 146
7.5.2分位数回归 147
7.6其余回归模型简介 148
7.6.1断点回归 148
7.6.2 Tobit回归 149
思考与练习 152
参考文献 153
第8章 路径分析入门 154
8.1两阶段最小二乘法 154
8.1.1模型简介 154
8.1.2案例:人口背景资料对收入的影响 154
8.1.3使用2SLS过程进行分析 156
8.2路径分析入门 158
8.2.1模型简介 158
8.2.2案例:住院费用影响因素研究 161
8.3偏最小二乘法入门 163
8.3.1模型简介 163
8.3.2案例:拟合推测胎儿周龄的回归方程 164
思考与练习 166
参考文献 166
第9章 非线性回归模型 167
9.1模型简介 167
9.1.1问题的提出 167
9.1.2模型框架 167
9.2案例:通风时间和毒物浓度的曲线方程 168
9.2.1操作说明 168
9.2.2结果解释 169
9.2.3对模型的进一步分析 170
9.3自定义损失函数:最小一乘法 171
9.3.1预分析 172
9.3.2操作说明 172
9.3.3结果解释 173
9.4分段回归模型的拟合 174
9.4.1预分析 175
9.4.2操作说明 176
9.4.3结果解释 176
9.5非线性回归模型进阶 177
9.5.1参数初始值的设定 177
9.5.2模型的拟合方法 178
思考与练习 178
参考文献 178
第10章 二分类Logistic回归模型 179
10.1模型简介 179
10.1.1模型入门 179
10.1.2一些基本概念 181
10.2案例:低出生体重儿影响因素研究 182
10.2.1操作说明 182
10.2.2结果解释 183
10.3分类自变量的定义与比较方法 185
10.3.1使用哑变量的必要性 185
10.3.2 SPSS中预设的哑变量编码方式 187
10.3.3设置哑变量时的注意事项 189
10.4自变量的筛选方法与逐步回归 189
10.4.1模型中的假设检验方法 190
10.4.2 SPSS中提供的自变量筛选方法 190
10.4.3案例:低体重儿数据的逐步回归 191
10.5弗斯Logistic回归 193
10.5.1模型简介 193
10.5.2案例:骨肉瘤病患预后分析 194
10.6 Logistic回归模型进阶 197
10.6.1模型拟合效果的判断 197
10.6.2拟合优度检验 198
10.6.3残差分析 200
10.6.4多重共线性问题 201
思考与练习 201
参考文献 201
第11章 多分类、配对Logistic回归与Probit回归模型 203
11.1有序多分类Logistic回归模型 203
11.1.1模型简介 203
11.1.2案例:工作满意度影响因素分析 204
11.1.3模型适用条件的考察 207
11.2无序多分类Logistic回归模型 208
11.2.1模型简介 208
11.2.2案例:不同背景人群的选举倾向 208
11.3 1:1配对Logistic回归 211
11.3.1模型简介 211
11.3.2案例:雌激素与患子宫内膜癌的关系 213
11.4 Probit回归模型 215
11.4.1模型简介 215
11.4.2案例一:与Logistic回归模型比较 216
11.4.3案例二:计算LD50 217
思考与练习 219
参考文献 219
第12章 对数线性模型、Poisson回归模型与潜类别分析 220
12.1对数线性模型简介 220
12.1.1模型入门 220
12.1.2软件实现 221
12.2一般对数线性模型 221
12.2.1初步分析 221
12.2.2对案例的进一步分析 224
12.3因果关系明确时的对数线性模型 225
12.3.1操作说明 225
12.3.2结果解释 225
12.4对数线性模型的自动筛选 226
12.4.1模型的选择策略 226
12.4.2分析案例 227
12.5对数线性模型与其他模型的关系 229
12.5.1与方差分析模型的关系 229
12.5.2与Logistic回归的关系 229
12.6 Poisson回归模型 230
12.6.1模型简介 230
12.6.2案例:冠心病死亡与吸烟的关系 231
12.7潜类别分析简介 232
12.7.1模型简介 232
12.7.2分析案例 233
思考与练习 235
参考文献 235
第三部分 多元统计分析方法 239
第13章 主成分分析、因子分析与多维偏好分析 239
13.1主成分分析 239
13.1.1模型简介 239
13.1.2案例:各地区经济发展情况综合评价 241
13.2因子分析 244
13.2.1模型简介 245
13.2.2案例:对各地区经济数据的进一步分析 246
13.3因子分析进阶 253
13.3.1公因子提取方法 254
13.3.2相关矩阵和协方差 254
13.3.3如何确定公因子数量 255
13.3.4主成分分析和因子分析的比较 255
13.4分类数据的主成分分析(多维偏好分析) 256
13.4.1模型简介 256
13.4.2界面说明 257
13.4.3案例:汽车偏好研究 260
思考与练习 264
参考文献 264
第14章 对应分析 265
14.1模型简介 265
14.1.1问题的提出 265
14.1.2模型入门 265
14.1.3软件实现 266
14.2案例:头发颜色与眼睛颜色的关联 266
14.2.1预分析 267
14.2.2正式分析 268
14.2.3分析结果的正确解释 272
14.2.4对案例的进一步分析 272
14.3基于平均值的对应分析 274
14.3.1基本原理 275
14.3.2案例:城市市政工程建设状况的对应分析 275
14.4对应分析进阶 278
14.4.1特殊类别的处理 278
14.4.2对应分析与因子分析的关系 279
14.4.3对应分析的优势与劣势 279
14.5基于最优尺度变换的多重对应分析 280
14.5.1基本原理 280
14.5.2案例:轿车用户背景资料的对应分析 280
思考与练习 283
参考文献 284
第15章 典型相关分析 285
15.1模型简介 285
15.1.1基本原理 285
15.1.2数学描述 286
15.2案例:体力指标和运动能力指标的相关分析 286
15.2.1操作说明 287
15.2.2典型相关系数 287
15.2.3典型结构分析 289
15.2.4典型冗余分析 290
15.3典型相关分析进阶 290
15.3.1如何应用典型相关分析 290
15.3.2如何理解典型相关分析的结果 291
15.3.3对应分析与典型相关分析的等价性 291
15.3.4典型相关分析和因子分析的关系 291
15.4基于最优尺度变换的非线性典型相关分析 292
15.4.1基本原理 292
15.4.2案例:多重对应分析数据的再分析 292
思考与练习 295
参考文献 295
第16章 多维尺度分析 296
16.1不考虑个体差异的多维尺度分析模型 296
16.1.1模型简介 296
16.1.2案例:城市间的地面距离 297
16.1.3距离的各种提供方式 301
16.2考虑个体差异的多维尺度分析模型 302
16.2.1模型简介 302
16.2.2案例:饮料的口味差异评价 303
16.2.3模型结果的解释与优化 306
16.3基于最优尺度变换的多维尺度分析模型 307
16.3.1模型简介 307
16.3.2界面说明 307
16.3.3案例:用PROXSCAL过程分析饮料数据 310
16.3.4在模型中考虑更多维度 311
16.4多维展开模型 312
16.4.1模型简介 312
16.4.2案例:场景和行为间的匹配关系 312
思考与练习 315
参考文献 316
第17章 聚类分析 317
17.1模型简介 317
17.1.1问题的提出 317
17.1.2聚类分析入门 317
17.1.3聚类分析的方法体系 318
17.2 K-均值聚类法 319
17.2.1基本原理 319
17.2.2案例:移动通信客户细分 320
17.3聚类结果的验证与自动优化 324
17.3.1聚类结果的验证 324
17.3.2聚类用变量的调整 325
17.3.3聚类结果的自动优化 325
17.4层次聚类法 329
17.4.1基本原理 329
17.4.2案例:体操裁判打分倾向聚类 329
17.4.3各种层次聚类法 333
17.5两步聚类法 333
17.5.1基本原理 333
17.5.2案例:病例数据的聚类分析 335
17.6聚类分析进阶 339
17.6.1利用标准化来调整聚类模式 339
17.6.2如何选择聚类分析方法 340
17.6.3距离/相似性测量的指标体系 340
17.6.4基于密度的聚类分析方法简介 341
思考与练习 343
参考文献 343
第18章 经典判别分析 344
18.1模型简介 344
18.1.1基本原理 344
18.1.2适用条件 345
18.1.3判别效果的评价 346
18.1.4分析步骤 347
18.2案例:鸢尾花种类判别 347
18.2.1操作说明 347
18.2.2结果解释 348
18.2.3判别结果的图形化展示 350
18.2.4判别效果的验证 352
18.2.5将模型用于新案例分类 353
18.2.6适用条件的判断 353
18.3贝叶斯判别分析 354
18.3.1基本原理 354
18.3.2软件实现 355
18.4判别分析进阶 356
18.4.1逐步判别分析 356
18.4.2判别分析和因子分析的相似性和差异 356
18.4.3二类判别分析和多重回归分析的等价性 356
思考与练习 357
参考文献 357
第四部分 其他统计分析方法 361
第19章 树模型、随机森林与最近邻元素法 361
19.1树模型简介 361
19.1.1问题的提出 361
19.1.2模型入门 362
19.1.3模型特点 365
19.2案例:移动客户流失预测 365
19.2.1操作说明 365
19.2.2结果解释 367
19.3对案例的进一步分析 369
19.3.1各自变量的重要性 369
19.3.2考虑应用模型时的成本与收益 371
19.3.3考虑进一步细分和剪枝 373
19.3.4将模型输出为判别程序 373
19.4常见的树模型算法 375
19.4.1 CHAID算法和穷举CHAID算法 375
19.4.2 CRT算法 376
19.4.3 QUEST算法 376
19.4.4 C5.0算法 377
19.5随机森林 378
19.5.1模型简介 379
19.5.2案例:客户风险等级评估 381
19.5.3操作说明 381
19.5.4结果解释 382
19.6最近邻元素法 386
19.6.1模型简介 386
19.6.2案例:鸢尾花种类判别 387
19.6.3 k-最近邻元素模型的本质 390
思考与练习 392
参考文献 392
第20章 神经网络与支持向量机 393
20.1模型简介 393
20.1.1基本原理 393
20.1.2注意事项 396
20.2案例:对低出生体重儿案例的重新分析 397
20.2.1操作说明 397
20.2.2结果解释 398
20.3对案例的进一步分析 401
20.3.1模型效果的图形观察 401
20.3.2尝试将模型复杂化 403
20.3.3纳入更多候选自变量 405
20.4径向基神经网络 407
20.4.1基本原理 407
20.4.2分析案例 408
20.5支持向量机简介 410
20.5.1基本原理 410
20.5.2分析案例 411
思考与练习 413
参考文献 413
第21章 信度分析 414
21.1信度理论入门 414
21.1.1真分数测量理论 414
21.1.2信度与效度 415
21.1.3内在信度与外在信度 415
21.1.4真分数测量理论的缺陷 415
21.2案例:问卷信度分析 416
21.2.1 Alpha信度系数 416
21.2.2对各项目的进一步分析 417
21.2.3对真分数测量理论适用条件的考察 419
21.3其他常用的信度系数 420
21.3.1重测信度 420
21.3.2折半信度 421
21.3.3 Guttman折半系数 421
21.3.4平行模型的信度系数 422
21.3.5严格平行模型的信度系数 423
21.3.6评分者信度 423
21.3.7信度系数总结 425
21.4概化理论简介 425
21.4.1概化理论入门 425
21.4.2软件实现 426
21.5项目反应理论简介 427
21.5.1项目反应理论人门 427
21.5.2软件实现 429
思考与练习 431
参考文献 431
第22章 联合分析 432
22.1模型简介 432
22.1.1为什么使用联合分析 432
22.1.2常用术语 433
22.1.3分析步骤 434
22.1.4软件实现 434
22.2联合分析的正交设计 435
22.2.1生成设计表格 435
22.2.2输出设计卡片 437
22.3联合分析的数据建模 438
22.3.1 CONJOINT的过程语法说明 438
22.3.2案例:汽车偏好研究 440
22.3.3对案例的进一步分析 443
22.4联合分析进阶 446
22.4.1适应性联合分析 446
22.4.2基于选择的联合分析 446
思考与练习 447
参考文献 447
第23章 时间序列模型 449
23.1模型简介 449
23.1.1基本概念 449
23.1.2模型分类 450
23.1.3分析步骤 450
23.1.4软件实现 450
23.2时间序列的建立和平稳化 451
23.2.1填补缺失值 451
23.2.2定义时间变量 452
23.2.3时间序列的平稳化 453
23.3时间序列的图形化观察 455
23.3.1序列图 455
23.3.2自相关图 456
23.3.3互相关图 459
23.4时间序列的建模与预测 460
23.4.1指数平滑模型简介 461
23.4.2 ARMA模型简介 462
23.4.3案例:nrc数据的建模预测 463
23.5季节性分解 467
23.5.1模型简介 468
23.5.2案例:对完整序列nrc2进行季节性分解 468
23.6时间因果模型 470
23.6.1模型简介 470
23.6.2案例:KPI驱动因素发现 471
思考与练习 476
参考文献 476
第24章 生存分析 477
24.1生存分析简介 477
24.1.1生存分析简史 477
24.1.2基本概念 478
24.1.3生存分析的基本内容 480
24.1.4软件实现 480
24.2生存函数的估计和检验 480
24.2.1生存函数的基本估计方法 480
24.2.2 Kaplan-Meier法 481
24.2.3寿命表法 486
24.2.4两种方法的比较 488
24.3 Cox回归模型 489
24.3.1模型简介 489
24.3.2案例:术中放疗效果分析 490
24.3.3模型结果的图形观察 493
24.4含时依协变量的Cox回归模型 494
24.4.1时依协变量的种类 494
24.4.2用时依协变量模型验证比例风险性 495
24.4.3用时依协变量模型考察内在时依协变量的影响 496
24.5 Cox回归模型进阶 497
24.5.1生存分析中的分层变量 497
24.5.2用Cox回归模型拟合1:n配伍Logistic回归模型 498
24.5.3竞争风险的Cox回归模型 499
24.6加速失效时间模型 499
24.6.1模型简介 500
24.6.2案例:对术中放疗案例拟合参数模型 501
思考与练习 505
参考文献 505
第25章 缺失值分析 506
25.1缺失值理论简介 506
25.1.1数据的缺失机制 506
25.1.2缺失值的处理方法 507
25.2对缺失情况的基本分析 508
25.2.1生成缺失数据 508
25.2.2缺失模式分析 509
25.2.3缺失情况的描述统计 511
25.3缺失值填补技术 512
25.3.1列表输出 512
25.3.2使用回归算法进行填补 513
25.3.3使用EM算法进行填补 515
25.4多重填补 517
25.4.1模型简介 517
25.4.2缺失模式分析 517
25.4.3缺失值的多重填补 519
25.4.4采用填补后数据建模 520
思考与练习 521
参考文献 521
附录1 常见多变量/多元统计分析方法分类图 522
附录2 Python插件和R插件的安装方法 523