当前位置:首页 > 工业技术
数据挖掘中的集成方法  通过集成预测来提升精度
数据挖掘中的集成方法  通过集成预测来提升精度

数据挖掘中的集成方法 通过集成预测来提升精度PDF电子书下载

工业技术

  • 电子书积分:7 积分如何计算积分?
  • 作 者:(美)赛尼,(美)艾德著;王攀,张健,杨洋等译
  • 出 版 社:北京:科学出版社
  • 出版年份:2015
  • ISBN:9787030443274
  • 页数:96 页
图书介绍:在过去的十年,集成方法被称为数据挖掘和机器学习领域最具影响的发展。它们集组合多个模型成一体而往往比单个最好的模型更精确。对于从投资时机把握到药物发现,从伪造检测到推荐系统等工业挑战(这些领域中,预测精度较之于模型可解释性更为重要),集成能给以重要的提升。本书首先讨论了决策树。继描述树及其长处不足之后,作者对正则化(当前被认为是现代集成算法高级性能的关键原因)作了概述。随后本书清晰地描述了两个近来的发展:重要性采样(IS)和规则集成(RE)。IS展现了经典集成方法--bagging,随机森林和boosting,它们是单个算法的特例,揭示如何改善其精度和速度。REs是源于规则树集成的线性规则模型。它们是集成的最可解释版本,对于诸如信誉评分和故障诊断等应用是本质性的。最后,作者解释了集成对于新数据在复杂性(显然复杂得多)和更大精度方面的悖论。
《数据挖掘中的集成方法 通过集成预测来提升精度》目录

第1章 集成发现 1

1.1 建立集成 5

1.2 正则化 6

1.3 现实世界中的实例:信用评分+网飞挑战 7

1.4 本书的组织架构 8

第2章 预测学习和决策树 10

2.1 决策树归纳纵览 14

2.2 决策树的性能 16

2.3 决策树的缺陷 17

第3章 模型复杂度、模型选择和正则化 19

3.1 什么是树的“合适”规模 19

3.2 偏差-方差分解 20

3.3 正则化 23

3.3.1 正则化与成本-复杂度树修剪 23

3.3.2 交叉验证 24

3.3.3 运用收缩的正则化 26

3.3.4 通过构建增量模型的正则化 30

3.3.5 实例 31

3.3.6 正则化综述 34

第4章 重要性采样和经典集成方法 36

4.1 重要性采样 39

4.1.1 参数重要性测度 40

4.1.2 扰动采样 42

4.2 泛化集成生成 42

4.3 Bagging 44

4.3.1 实例 47

4.3.2 为什么Bagging有用 51

4.4 随机森林 51

4.5 AdaBoost 53

4.5.1 实例 54

4.5.2 为什么使用指数损失 56

4.5.3 AdaBoost的总体最小值 57

4.6 梯度Boosting 58

4.7 MART 59

4.8 并行集成与顺序集成的比较 59

第5章 规则集成和解释统计 61

5.1 规则集成 61

5.2 解释 63

5.2.1 仿真数据实例 64

5.2.2 变量重要性 68

5.2.3 偏相关 69

5.2.4 交互统计 70

5.3 制造业数据实例 70

5.4 总结 74

第6章 集成复杂性 75

6.1 复杂性 75

6.2 广义自由度 77

6.3 实例:带有噪声的决策树表面 78

6.4 广义自由度的R代码和实例 82

6.5 总结与讨论 83

参考文献 85

附录A AdaBoost与FSF程序的等价性 90

附录B 梯度Boosting和鲁棒损失函数 93

返回顶部