《应用预测建模》PDF下载

  • 购买积分:14 如何计算积分?
  • 作  者:(美)马克思·库恩(Max Kuhn),(美)谢尔·约翰逊(Kjell Johnson)著
  • 出 版 社:北京:机械工业出版社
  • 出版年份:2016
  • ISBN:9787111533429
  • 页数:409 页
图书介绍:本书介绍了总体预测建模过程,从数据预处理、数据分割和模型调优基础开始,然后直观地解释很多常见的、现代的回归技术和分类技术,总是强调对实际数据问题的说明和求解。从解决实际问题延伸到模型拟合,以及随之出现的主题,如处理类不平衡,选择预测因子等在实践中经常发生的问题。章后附有习题,供读者巩固所学。R包中还有数据可用。

第1章 导论 1

1.1 预测与解释 3

1.2 预测模型的关键部分 3

1.3 专业术语 4

1.4 实例数据集和典型数据场景 5

1.5 概述 9

1.6 符号 10

第一部分 一般策略 14

第2章 预测建模过程简介 14

2.1 案例分析:预测燃油效能 14

2.2 主题 18

2.3 总结 19

第3章 数据预处理 20

3.1 案例分析:高内涵筛选中的细胞分组 21

3.2 单个预测变量数据变换 22

3.3 多个预测变量数据变换 24

3.4 处理缺失值 29

3.5 移除预测变量 31

3.6 增加预测变量 34

3.7 区间化预测变量 35

3.8 计算 36

习题 42

第4章 过度拟合与模型调优 44

4.1 过度拟合的问题 45

4.2 模型调优 46

4.3 数据分割 47

4.4 重抽样技术 49

4.5 案例分析:信用评分 52

4.6 选择调优参数值 53

4.7 数据划分建议 55

4.8 不同模型间的选择 56

4.9 计算 57

习题 64

第二部分 回归模型 68

第5章 衡量回归模型的效果 68

5.1 模型效果的定量度量 68

5.2 方差-偏差的权衡 69

5.3 计算 70

第6章 线性回归及其扩展 72

6.1 案例分析:定量构效关系建模 73

6.2 线性回归 76

6.3 偏最小二乘法 80

6.4 惩罚模型 87

6.5 计算 91

习题 98

第7章 非线性回归模型 100

7.1 神经网络 100

7.2 多元自适应回归样条 103

7.3 支持向量机 108

7.4 K近邻 113

7.5 计算 115

习题 120

第8章 回归树与基于规则的模型 123

8.1 简单回归树 124

8.2 回归模型树 130

8.3 基于规则的模型 136

8.4 装袋树 137

8.5 随机森林 142

8.6 助推法 145

8.7 Cubist 149

8.8 计算 151

习题 156

第9章 溶解度模型总结 158

第10章 案例研究:混凝土混合物的抗压强度 160

10.1 模型构建策略 163

10.2 模型性能 164

10.3 优化抗压强度 166

10.4 计算 168

第三部分 分类模型 176

第11章 分类模型的效果度量 176

11.1 类预测 176

11.2 评估预测类 181

11.3 评估类概率 186

11.4 计算 188

第12章 判别分析和其他线性分类模型 194

12.1 案例分析:预测是否成功申请经费 194

12.2 逻辑回归 199

12.3 线性判别分析 202

12.4 偏最小二乘判别分析 208

12.5 惩罚模型 211

12.6 最近收缩质心 214

12.7 计算 215

习题 228

第13章 非线性分类模型 230

13.1 非线性判别分析 230

13.2 神经网络 232

13.3 灵活判别分析 236

13.4 支持向量机 239

13.5 K近邻 244

13.6 朴素贝叶斯 246

13.7 计算 249

习题 255

第14章 分类树与基于规则的模型 257

14.1 基本的分类树 257

14.2 基于规则的模型 266

14.3 装袋决策树 268

14.4 随机森林 269

14.5 助推法 270

14.6 C5.0 273

14.7 比较两种分类预测变量编码方式 278

14.8 计算 278

习题 285

第15章 经费申请模型的总结 288

第16章 对严重类失衡的补救方法 290

16.1 案例分析:预测房车保险所有权 290

16.2 类失衡的影响 291

16.3 模型调优 292

16.4 选择截点 293

16.5 调整先验概率 294

16.6 不等案例权重 294

16.7 抽样方法 295

16.8 成本敏感度训练 297

16.9 计算 300

习题 306

第17章 案例研究:作业调度 307

17.1 数据切分和模型策略 312

17.2 结果 313

17.3 计算 315

第18章 衡量预测变量重要性 319

18.1 数值结果变量 319

18.2 分类结果变量 322

18.3 其他方法 325

18.4 计算 329

习题 334

第19章 特征选择介绍 336

19.1 使用无信息预测变量的结果 336

19.2 减少预测变量个数的方法 338

19.3 绕封法 338

19.4 过滤法 343

19.5 选择偏差 344

19.6 案例分析:预测认知损伤 345

19.7 计算 350

习题 357

第20章 影响模型表现的因素 358

20.1 第Ⅲ类错误 358

20.2 结果变量的测量误差 360

20.3 预测变量的测量误差 362

20.4 连续变量离散化 365

20.5 模型预测何时是可信的 367

20.6 大样本的影响 369

20.7 计算 371

习题 372

附录 378

附录A 各种模型的总结 378

附录B R语言介绍 379

附录C 值得关注的网站 392

参考文献 394