《统计学习理论》PDF下载

  • 购买积分:17 如何计算积分?
  • 作  者:(美)瓦普尼克著
  • 出 版 社:北京:电子工业出版社
  • 出版年份:2015
  • ISBN:9787121258756
  • 页数:560 页
图书介绍:统计学习理论是研究利用经验数据进行机器学习的一种一般理论,属于计算机科学、模式识别和应用统计学相交叉与结合的范畴,其主要创立者是本书作者。统计学习理论基本内容诞生于20世纪60~70年代,到90年代中期发展到比较成熟并受到世界机器学习界的广泛重视,其核心内容反映在Vapnik的两部重要著作中,本书即是其中一部,另一部是《统计学习理论的本质》。 由于较系统地考虑了有限样本的情况,统计学习理论与传统统计学理论相比有更好的实用性,在该理论下发展出的支持向量机方法以其有限样本下良好的推广能力而备受重视。

引论:归纳和统计推理问题 1

0.1 统计学中的学习理论体系 1

0.2 统计推理的两种方法:特殊方法(参数推理)和通用方法(非参数推理) 1

0.3 参数方法的体系 2

0.4 参数体系的缺点 3

0.5 经典体系后的发展 4

0.6 复兴阶段 4

0.7 Glivenko-Cantelli-Kolmogorov理论的推广 5

0.8 结构风险最小化原则 6

0.9 小样本集推理的主要原则 7

0.10 本书的要点 8

第一部分 学习和推广性理论 12

第1章 处理学习问题的两种方法 12

1.1 基于实例学习的一般模型 12

1.2 最小化经验数据风险泛函的问题 13

1.3 模式识别问题 15

1.4 回归估计问题 16

1.5 解释间接测量结果的问题 18

1.6 密度估计问题(Fisher-Wald表达) 19

1.7 基于经验数据最小化风险泛函的归纳原则 21

1.8 解函数估计问题的经典方法 22

1.9 随机对象的识别:密度和条件密度估计 23

1.10 解近似确定性积分方程的问题 25

1.11 Glivenko-Cantelli定理 26

1.12 不适定问题 30

1.13 学习理论的结构 32

第1章 附录解不适定问题的方法 35

A1.1 解算子方程问题 35

A1.2 Tikhonov意义下的适定问题 36

A1.3 正则化方法 37

第2章 概率测度估计与学习问题 41

2.1 随机实验的概率模型 41

2.2 统计学的基本问题 42

2.3 估计一致收敛于未知概率测度的条件 45

2.4 部分一致收敛性和Glivenko-Cantelli定理的推广 48

2.5 在概率测度估计一致收敛的条件下最小化风险泛函 50

2.6 在概率测度估计部分一致收敛的条件下最小化风险泛函 52

2.7 关于概率测度估计收敛方式和学习问题表达的评述 54

第3章 经验风险最小化原则一致性的条件 55

3.1 一致性的经典定义 55

3.2 严格(非平凡)一致性的定义 57

3.3 经验过程 59

3.4 学习理论的关键定理(关于等价性的定理) 61

3.5 关键定理的证明 62

3.6 最大似然方法的严格一致性 64

3.7 频率一致收敛于概率的充分必要条件 65

3.8 有界实函数集均值一致收敛于期望的充分必要条件 68

3.9 无界函数集均值一致收敛于期望的充分必要条件 70

3.10 Kant的划分问题和Popper的不可证伪学说 74

3.11 不可证伪性定理 76

3.12 一致单边收敛性经验风险最小化原则和一致性的条件 80

3.13 学习理论的三个里程碑 83

第4章 指示损失函数风险的界 86

4.1 最简单模型的界:悲观情况 86

4.2 最简单模型的界:乐观情况 89

4.3 最简单模型的界:一般情况 90

4.4 基本不等式:悲观情况 92

4.5 定理4.1的证明 93

4.6 基本不等式:一般情况 98

4.7 定理4.2的证明 100

4.8 主要的非构造性的界 104

4.9 VC维 105

4.10 定理4.3的证明 108

4.11 不同函数集的VC维的例子 112

4.12 关于学习机器推广能力的界的评述 116

4.13 两个等分样本子集上频率差的界 118

第4章 附录 关于ERM原则风险的下界 122

A4.1 统计推理中的两种策略 122

A4.2 学习问题的最小最大损失策略 123

A4.3 经验风险最小化原则的最大损失的上界 125

A4.4 乐观情形下最小最大损失策略的下界 128

A4.5 悲观情形下最小最大损失策略的下界 129

第5章 实损失函数风险的界 133

5.1 最简单模型的界:悲观情形 133

5.2 实函数集的容量 135

5.3 一般模型的界:悲观情形 140

5.4 基本不等式 141

5.5 一般模型的界:普遍情形 143

5.6 一致相对收敛的界 145

5.7 无界损失函数集中风险最小化问题的先验信息 151

5.8 无界非负函数集的风险的界 153

5.9 样本选择与野值问题 157

5.10 界理论的主要结果 158

第6章 结构风险最小化原则 160

6.1 结构风险最小化归纳原则的构架 160

6.2 最小描述长度和结构风险最小化归纳原则 163

6.3 结构风险最小化原则的一致性与关于收敛速率的渐近界 167

6.4 回归估计问题的界 173

6.5 函数逼近问题 180

6.6 局部风险最小化问题 188

第6章 附录 基于间接测量的函数估计 197

A6.1 估计间接测量结果的问题 197

A6.2 关于利用间接测量估计函数的定理 198

A6.3 定理的证明 200

第7章 随机不适定问题 213

7.1 随机不适定问题 213

7.2 解随机不适定问题的正则化方法 215

7.3 定理的证明 217

7.4 密度估计方法一致性的条件 221

7.5 非参数密度估计子:基于经验分布函数逼近分布函数的估计子 223

7.6 非经典估计子 229

7.7 光滑密度函数的渐近收敛速率 232

7.8 定理7.4 的证明 234

7.9 密度估计问题中光滑(正则化)参数值的选取 238

7.10 两个密度比值的估计 240

7.11 直线上两个密度比值的估计 243

7.12 直线上条件概率的估计 245

第8章 估计给定点上的函数值 247

8.1 最小化总体风险的方法 247

8.2 总体风险的结构最小化方法 249

8.3 关于两个样本子集上频率的一致相对偏差的界 250

8.4 关于两个样本子集上均值的一致相对偏差的界 252

8.5 在线性决策规则集中估计指示函数的值 255

8.6 指示函数值估计的样本选取 259

8.7 在与参数成线性关系的函数集中估计实函数值 261

8.8 实函数值估计的样本选取 263

8.9 估计指示函数值的局部算法 264

8.10 估计实函数值的局部算法 266

8.11 在给定样本集中寻找最好点的问题 267

第二部分 函数的支持向量估计 274

第9章 感知器及其推广 274

9.1 Rosenblatt感知器 274

9.2 定理的证明 278

9.3 随机逼近方法和指示函数的Sigmoid逼近方法 280

9.4 势函数法与径向基函数法 283

9.5 最优化理论中的三个定理 285

9.6 神经网络 289

第10章 估计指示函数的支持向量方法 293

10.1 最优超平面 293

10.2 不可分样本集的最优超平面 298

10.3 最优超平面的统计特性 301

10.4 定理的证明 303

10.5 支持向量机的思想 308

10.6 支持向量方法的另一种构造方式 311

10.7 利用界选择支持向量机 313

10.8 模式识别问题的支持向量机的例子 314

10.9 转导推理的支持向量方法 318

10.10 多类分类 320

10.11 关于支持向量方法推广性的评述 322

第11章 估计实函数的支持向量方法 324

11.1 ε不敏感损失函数 324

11.2 鲁棒估计子的损失函数 325

11.3 最小化包含ε不敏感损失函数的风险 328

11.4 函数估计的支持向量机 333

11.5 构造实函数估计的核 337

11.6 生成样条的核 340

11.7 生成Fourier展开的核 344

11.8 函数逼近和回归估计的支持向量ANOVA分解 346

11.9 解线性算子方程的支持向量方法 347

11.10 密度估计的支持向量方法 352

11.11 条件概率函数和条件密度函数的估计 356

11.12 支持向量方法与稀疏函数逼近之间的关系 360

第12章 模式识别的支持向量机 364

12.1 二次优化问题 364

12.2 数字识别问题:美国邮政服务数据库 366

12.3 切距 373

12.4 数字识别问题:NIST数据库 377

12.5 将来的竞争 379

第13章 函数逼近、回归估计和信号处理的支持向量机 385

13.1 模型选择问题 385

13.2 正则化线性函数集上的结构 392

13.3 利用支持向量方法的函数逼近 401

13.4 回归估计的支持向量机 406

13.5 求解正电子放射层析成像(PET)问题的支持向量方法 413

13.6 关于支持向量方法的评述 420

第三部分 学习理论的统计学基础 422

第14章 频率一致收敛于概率的充分必要条件 422

14.1 频率一致收敛于概率 422

14.2 基本引理 423

14.3 事件集的熵 426

14.4 熵的渐近性质 427

14.5 一致收敛性的充分必要条件:充分性的证明 432

14.6 一致收敛性的充分必要条件:必要性的证明 435

14.7 充分必要条件:必要性的证明(续) 439

第15章 均值一致收敛于期望的充分必要条件 444

15.1 ε熵 444

15.2 伪立方体 449

15.3 集合的ε扩张 452

15.4 辅助引理 454

15.5 一致收敛性的充分必要条件:必要性的证明 457

15.6 一致收敛性的充分必要条件:充分性的证明 460

15.7 定理15.1 的推论 465

第16章 均值一致单边收敛于期望的充分必要条件 469

16.1 引言 469

16.2 最大体积部分 469

16.3 平均对数定理 474

16.4 走廊存在性定理 479

16.5 邻近走廊边界的函数的存在性定理(潜在不可证伪的定理) 486

16.6 必要条件 493

16.7 充分必要条件 498

注释与参考文献评述 511

参考文献 539

中英文术语对照表 549