引论:归纳和统计推理问题 1
统计学中的学习理论体系 1
统计推理的两种方法:特殊方法(参数推理)和通用方法(非参数推理) 1
参数方法的体系 2
参数体系的缺点 3
经典体系后的发展 4
复兴阶段 4
Glivenko-Cantelli-Kolmogorov理论的推广 5
结构风险最小化原则 6
小样本集推理的主要原则 7
本书的要点 8
第一部分 学习和推广性理论 12
第1章 处理学习问题的两种方法 12
基于实例学习的一般模型 12
最小化经验数据风险泛函的问题 13
模式识别问题 15
回归估计问题 16
解释间接测量结果的问题 18
密度估计问题(Fisher-Wald表达) 19
基于经验数据最小化风险泛函的归纳原则 21
解函数估计问题的经典方法 22
随机对象的识别:密度和条件密度估计 23
解近似确定性积分方程的问题 25
Glivenko-Cantelli定理 26
不适定问题 30
学习理论的结构 32
第1章附录 解不适定问题的方法 35
解算子方程问题 35
Tikhonov意义下的适定问题 36
正则化方法 37
第2章 概率测度估计与学习问题 41
随机实验的概率模型 41
统计学的基本问题 42
估计一致收敛于未知概率测度的条件 45
部分一致收敛性和Glivenko-Cantelli定理的推广 48
在概率测度估计一致收敛的条件下最小化风险泛函 50
在概率测度估计部分一致收敛的条件下最小化风险泛函 52
关于概率测度估计收敛方式和学习问题表达的评述 54
第3章 经验风险最小化原则一致性的条件 55
一致性的经典定义 55
严格(非平凡)一致性的定义 57
经验过程 59
学习理论的关键定理(关于等价性的定理) 61
关键定理的证明 62
最大似然方法的严格一致性 64
频率一致收敛于概率的充分必要条件 65
有界实函数集均值一致收敛于期望的充分必要条件 68
无界函数集均值一致收敛于期望的充分必要条件 70
Kant的划分问题和Popper的不可证伪学说 74
不可证伪性定理 76
一致单边收敛性经验风险最小化原则和一致性的条件 80
学习理论的三个里程碑 83
第4章 指示损失函数风险的界 86
最简单模型的界:悲观情况 86
最简单模型的界:乐观情况 89
最简单模型的界:一般情况 90
基本不等式:悲观情况 92
定理4.1的证明 93
基本不等式:一般情况 98
定理4.2的证明 100
主要的非构造性的界 104
VC维 105
定理4.3的证明 108
不同函数集的VC维的例子 112
关于学习机器推广能力的界的评述 116
两个等分样本子集上频率差的界 118
第4章附录 关于ERM原则风险的下界 122
统计推理中的两种策略 122
学习问题的最小最大损失策略 123
经验风险最小化原则的最大损失的上界 125
乐观情形下最小最大损失策略的下界 128
悲观情形下最小最大损失策略的下界 129
第5章 实损失函数风险的界 133
最简单模型的界:悲观情形 133
实函数集的容量 135
一般模型的界:悲观情形 140
基本不等式 141
一般模型的界:普遍情形 143
一致相对收敛的界 145
无界损失函数集中风险最小化问题的先验信息 151
无界非负函数集的风险的界 153
样本选择与野值问题 157
界理论的主要结果 158
第6章 结构风险最小化原则 160
结构风险最小化归纳原则的构架 160
最小描述长度和结构风险最小化归纳原则 163
结构风险最小化原则的一致性与关于收敛速率的渐近界 167
回归估计问题的界 173
函数逼近问题 180
局部风险最小化问题 188
第6章附录 基于间接测量的函数估计 197
估计间接测量结果的问题 197
关于利用间接测量估计函数的定理 198
定理的证明 200
第7章 随机不适定问题 213
随机不适定问题 213
解随机不适定问题的正则化方法 215
定理的证明 217
密度估计方法一致性的条件 221
非参数密度估计子:基于经验分布函数逼近分布函数的估计子 223
非经典估计子 229
光滑密度函数的渐近收敛速率 232
定理7.4的证明 234
密度估计问题中光滑(正则化)参数值的选取 238
两个密度比值的估计 240
直线上两个密度比值的估计 243
直线上条件概率的估计 245
第8章 估计给定点上的函数值 247
最小化总体风险的方法 247
总体风险的结构最小化方法 249
关于两个样本子集上频率的一致相对偏差的界 250
关于两个样本子集上均值的一致相对偏差的界 252
在线性决策规则集中估计指示函数的值 255
指示函数值估计的样本选取 259
在与参数成线性关系的函数集中估计实函数值 261
实函数值估计的样本选取 263
估计指示函数值的局部算法 264
估计实函数值的局部算法 266
在给定样本集中寻找最好点的问题 267
第二部分 函数的支持向量估计 274
第9章 感知器及其推广 274
Rosenbla 274
感知器 274
定理的证明 278
随机逼近方法和指示函数的Sigmoid逼近方法 280
势函数法与径向基函数法 283
最优化理论中的三个定理 285
神经网络 289
第10章 估计指示函数的支持向量方法 293
最优超平面 293
不可分样本集的最优超平面 298
最优超平面的统计特性 301
定理的证明 303
支持向量机的思想 308
支持向量方法的另一种构造方式 311
利用界选择支持向量机 313
模式识别问题的支持向量机的例子 314
转导推理的支持向量方法 318
多类分类 320
关于支持向量方法推广性的评述 322
第11章 估计实函数的支持向量方法 324
ε不敏感损失函数 324
鲁棒估计子的损失函数 325
最小化包含ε不敏感损失函数的风险 328
函数估计的支持向量机 333
构造实函数估计的核 337
生成样条的核 340
生成Fourier展开的核 344
函数逼近和回归估计的支持向量ANOVA分解 346
解线性算子方程的支持向量方法 347
密度估计的支持向量方法 352
条件概率函数和条件密度函数的估计 356
支持向量方法与稀疏函数逼近之间的关系 360
第12章 模式识别的支持向量机 364
二次优化问题 364
数字识别问题:美国邮政服务数据库 366
切距 373
数字识别问题:NIST数据库 377
将来的竞争 379
第13章 函数逼近、回归估计和信号处理的支持向量机 385
模型选择问题 385
正则化线性函数集上的结构 392
利用支持向量方法的函数逼近 401
回归估计的支持向量机 406
求解正电子放射层析成像(PET)问题的支持向量方法 413
关于支持向量方法的评述 420
第三部分 学习理论的统计学基础 422
第14章 频率一致收敛于概率的充分必要条件 422
频率一致收敛于概率 422
基本引理 423
事件集的熵 426
熵的渐近性质 427
一致收敛性的充分必要条件:充分性的证明 432
一致收敛性的充分必要条件:必要性的证明 435
充分必要条件:必要性的证明(续) 439
第15章 均值一致收敛于期望的充分必要条件 444
ε熵 444
伪立方体 449
集合的ε扩张 452
辅助引理 454
一致收敛性的充分必要条件:必要性的证明 457
一致收敛性的充分必要条件:充分性的证明 460
定理15.1的推论 465
第16章 均值一致单边收敛于期望的充分必要条件 469
引言 469
最大体积部分 469
平均对数定理 474
走廊存在性定理 479
邻近走廊边界的函数的存在性定理(潜在不可证伪的定理) 486
必要条件 493
充分必要条件 498
注释与参考文献评述 511
参考文献 539
中英文术语对照表 549