第1章 导论 1
1.1 预测与解释 3
1.2 预测模型的关键部分 3
1.3 专业术语 4
1.4 实例数据集和典型数据场景 5
1.5 概述 9
1.6 符号 10
第一部分 一般策略 14
第2章 预测建模过程简介 14
2.1 案例分析:预测燃油效能 14
2.2 主题 18
2.3 总结 19
第3章 数据预处理 20
3.1 案例分析:高内涵筛选中的细胞分组 21
3.2 单个预测变量数据变换 22
3.3 多个预测变量数据变换 24
3.4 处理缺失值 29
3.5 移除预测变量 31
3.6 增加预测变量 34
3.7 区间化预测变量 35
3.8 计算 36
习题 42
第4章 过度拟合与模型调优 44
4.1 过度拟合的问题 45
4.2 模型调优 46
4.3 数据分割 47
4.4 重抽样技术 49
4.5 案例分析:信用评分 52
4.6 选择调优参数值 53
4.7 数据划分建议 55
4.8 不同模型间的选择 56
4.9 计算 57
习题 64
第二部分 回归模型 68
第5章 衡量回归模型的效果 68
5.1 模型效果的定量度量 68
5.2 方差-偏差的权衡 69
5.3 计算 70
第6章 线性回归及其扩展 72
6.1 案例分析:定量构效关系建模 73
6.2 线性回归 76
6.3 偏最小二乘法 80
6.4 惩罚模型 87
6.5 计算 91
习题 98
第7章 非线性回归模型 100
7.1 神经网络 100
7.2 多元自适应回归样条 103
7.3 支持向量机 108
7.4 K近邻 113
7.5 计算 115
习题 120
第8章 回归树与基于规则的模型 123
8.1 简单回归树 124
8.2 回归模型树 130
8.3 基于规则的模型 136
8.4 装袋树 137
8.5 随机森林 142
8.6 助推法 145
8.7 Cubist 149
8.8 计算 151
习题 156
第9章 溶解度模型总结 158
第10章 案例研究:混凝土混合物的抗压强度 160
10.1 模型构建策略 163
10.2 模型性能 164
10.3 优化抗压强度 166
10.4 计算 168
第三部分 分类模型 176
第11章 分类模型的效果度量 176
11.1 类预测 176
11.2 评估预测类 181
11.3 评估类概率 186
11.4 计算 188
第12章 判别分析和其他线性分类模型 194
12.1 案例分析:预测是否成功申请经费 194
12.2 逻辑回归 199
12.3 线性判别分析 202
12.4 偏最小二乘判别分析 208
12.5 惩罚模型 211
12.6 最近收缩质心 214
12.7 计算 215
习题 228
第13章 非线性分类模型 230
13.1 非线性判别分析 230
13.2 神经网络 232
13.3 灵活判别分析 236
13.4 支持向量机 239
13.5 K近邻 244
13.6 朴素贝叶斯 246
13.7 计算 249
习题 255
第14章 分类树与基于规则的模型 257
14.1 基本的分类树 257
14.2 基于规则的模型 266
14.3 装袋决策树 268
14.4 随机森林 269
14.5 助推法 270
14.6 C5.0 273
14.7 比较两种分类预测变量编码方式 278
14.8 计算 278
习题 285
第15章 经费申请模型的总结 288
第16章 对严重类失衡的补救方法 290
16.1 案例分析:预测房车保险所有权 290
16.2 类失衡的影响 291
16.3 模型调优 292
16.4 选择截点 293
16.5 调整先验概率 294
16.6 不等案例权重 294
16.7 抽样方法 295
16.8 成本敏感度训练 297
16.9 计算 300
习题 306
第17章 案例研究:作业调度 307
17.1 数据切分和模型策略 312
17.2 结果 313
17.3 计算 315
第18章 衡量预测变量重要性 319
18.1 数值结果变量 319
18.2 分类结果变量 322
18.3 其他方法 325
18.4 计算 329
习题 334
第19章 特征选择介绍 336
19.1 使用无信息预测变量的结果 336
19.2 减少预测变量个数的方法 338
19.3 绕封法 338
19.4 过滤法 343
19.5 选择偏差 344
19.6 案例分析:预测认知损伤 345
19.7 计算 350
习题 357
第20章 影响模型表现的因素 358
20.1 第Ⅲ类错误 358
20.2 结果变量的测量误差 360
20.3 预测变量的测量误差 362
20.4 连续变量离散化 365
20.5 模型预测何时是可信的 367
20.6 大样本的影响 369
20.7 计算 371
习题 372
附录 378
附录A 各种模型的总结 378
附录B R语言介绍 379
附录C 值得关注的网站 392
参考文献 394