0 引论:学习问题研究的四个阶段 1
0.1 Rosenblatt的感知器(60年代) 1
0.1.1 感知器模型 1
0.1.2 对学习过程分析的开始 3
0.1.3 对学习过程的应用分析与理论分析 4
0.2 学习理论基础的创立(60—70年代) 5
0.2.1 经验风险最小化原则的理论 5
0.2.2 解决不适定问题的理论 6
0.2.3 密度估计的非参数方法 7
0.2.4 算法复杂度的思想 7
0.3 神经网络(80年代) 8
0.3.1 神经网络的思想 8
0.3.2 理论分析目标的简化 8
0.4 回到起点(90年代) 10
第一章 学习问题的表示 11
1.1 函数估计模型 11
1.2 风险最小化问题 12
1.3 三种主要的学习问题 12
1.3.1 模式识别 12
1.3.2 回归估计 12
1.3.3 密度估计(Fisher-Wald表示) 13
1.4 学习问题的一般表示 13
1.5 经验风险最小化归纳原则 14
1.6 学习理论的四个部分 14
非正式推导和评述——1 16
1.7 解决学习问题的传统模式 16
1.7.1 密度估计问题(最大似然方法) 16
1.7.2 模式识别(判别分析)问题 17
1.7.3 回归估计模型 17
1.7.4 最大似然法的局限 18
1.8 密度估计的非参数方法 19
1.8.1 Parzen窗 19
1.8.2 密度估计的问题是不适定的 19
1.9 用有限数量信息解决问题的基本原则 21
1.10 基于经验数据的风险最小化模型 22
1.10.1 模式识别 22
1.10.2 回归估计 22
1.10.3 密度估计 22
1.11 随机逼近推理 23
第二章 学习过程的一致性 25
2.1 传统的一致性定义和非平凡一致性概念 25
2.2 学习理论的关键定理 27
2.3 一致双边收敛的充分必要条件 28
2.3.1 关于大数定律及其推广 29
2.3.2 指示函数集的熵 30
2.3.3 实函数集的熵 30
2.3.4 一致双边收敛的条件 31
2.4 一致单边收敛的充分必要条件 32
2.5 不可证伪性理论 33
2.6 关于不可证伪性的定理 35
2.6.1 完全(Popper)不可证伪的情况 35
2.6.2 关于部分不可证伪的定理 36
2.6.3 关于潜在不可证伪的定理 36
2.7 学习理论的三个里程碑 38
非正式推导和评述——2 40
2.8 概率论和统计学的基本问题 40
2.9 估计概率测度的两种方式 43
2.10 概率测度的强方式估计与密度估计问题 44
2.11 G1ivenko-Cantelli定理及其推广 45
2.12 归纳的数学理论 46
第三章 学习过程收敛速度的界 47
3.1 基本不等式 47
3.2 对实函数集的推广 49
3.3 主要的与分布无关的界 51
3.4 学习机器推广能力的界 52
3.5 生长函数的结构 54
3.6 函数集的VC维 55
3.7 构造性的与分布无关的界 57
3.8 构造严格的(依赖于分布的)界的问题 59
非正式推导和评述——3 60
3.9 Kolmogorov-Smirnov分布 60
3.10 在常数上的竞赛 61
3.11 经验过程的界 62
第四章 控制学习过程的推广能力 63
4.1 结构风险最小化归纳原则 63
4.2 收敛速度的渐近分析 65
4.3 学习理论中的函数逼近问题 67
4.4 神经网络的子集结构举例 69
4.5 局部函数估计的问题 70
4.6 最小描述长度与SRM原则 71
4.6.1 MDL原则 72
4.6.2 对于MDL原则的界 73
4.6.3 SRM和MDL原则 74
4.6.4 MDL原则的一个弱点 75
非正式推导和评述——4 76
4.7 解决不适定问题的方法 76
4.8 随机不适定问题和密度估计问题 78
4.9 回归的多项式逼近问题 79
4.10 容量控制的问题 80
4.10.1 选择多项式的阶数 80
4.10.2 选择最优的稀疏代数多项式 81
4.10.3 三角多项式集合上的结构 81
4.10.4 特征选择的问题 81
4.11 容量控制的问题与贝叶斯推理 82
4.11.1 学习理论中的贝叶斯方法 82
4.11.2 贝叶斯方法与容量控制方法的讨论 83
第五章 模式识别的方法 85
5.1 为什么学习机器能够推广? 85
5.2 指示函数的sigmoid逼近 86
5.3 神经网络 87
5.3.1 后向传播方法 87
5.3.2 后向传播算法 90
5.3.3 用于回归估计问题的神经网络 90
5.3.4 关于后向传播方法的讨论 90
5.4 最优分类超平面 91
5.4.1 最优超平面 91
5.4.2 △-间隔分类超平面 92
5.5 构造最优超平面 92
5.6 支持向量机 96
5.6.1 高维空间中的推广 96
5.6.2 内积的回旋 97
5.6.3 构造SV机 98
5.6.4 SV机的例子 99
5.7 SV机的实验 101
5.7.1 平面上的实验 102
5.7.2 手写数字识别 102
5.7.3 一些重要的细节 105
5.8 关于SV机的讨论 107
5.9 SVM与Logistic回归 108
5.9.1 Logistic回归 108
5.9.2 SVM的风险函数 110
5.9.3 Logistic回归的SVMn逼近 111
5.10 SVM的组合 113
5.10.1 AdaBoost方法 114
5.10.2 SVM的组合 116
非正式推导和评述——5 119
5.11 工程技巧与正式的推理 119
5.12 统计模型的高明所在 121
5.13 从数字识别实验中我们学到了什么? 122
5.13.1 结构类型与容量控制精度的影响 123
5.13.2 SRM原则和特征构造问题 124
5.13.3 支持向量集合是否是数据的一个鲁棒的特性? 124
第六章 函数估计的方法 126
6.1 ε不敏感损失函数 126
6.2 用于回归函数估计的SVM 128
6.2.1 采用回旋内积的SV机 130
6.2.2 对非线性损失函数的解 132
6.2.3 线性优化方法 133
6.3 构造估计实值函数的核 134
6.3.1 生成正交多项式展开的核 134
6.3.2 构造多维核 135
6.4 生成样条的核 136
6.4.1 d阶有限结点的样条 136
6.4.2 生成有无穷多结点的样条的核 137
6.5 生成傅里叶展开的核 138
6.6 用于函数逼近和回归估计的支持向量ANOVA分解(SVAD) 140
6.7 求解线性算子方程的SVM 141
6.8 用SVM进行函数逼近 144
6.9 用于回归估计的SVM 147
6.9.1 数据平滑的问题 147
6.9.2 线性回归函数估计 148
6.9.3 非线性回归函数估计 150
非正式推导和评述——6 152
6.10 回归估计问题中的损失函数 152
6.11 鲁棒估计的损失函数 153
6.12 支持向量回归机器 155
第七章 统计学习理论中的直接方法 157
7.1 密度、条件概率和条件密度的估计问题 157
7.1.1 密度估计的问题:直接表示 157
7.1.2 条件概率估计问题 158
7.1.3 条件密度估计问题 159
7.2 求解近似确定的积分方程的问题 160
7.3 Glivenko—Cantelli定理 160
7.4 不适定问题 162
7.5 解决不适定问题的三种方法 164
7.6 不适定问题理论的主要论断 166
7.6.1 确定性不适定问题 166
7.6.2 随机不适定问题 166
7.7 密度估计的非参数方法 167
7.7.1 密度估计问题解的一致性 167
7.7.2 Parzen估计 169
7.8 密度估计问题的SVM解 170
7.8.1 SVM密度估计方法:总结 172
7.8.2 Parzen和SVM方法的比较 173
7.9 条件概率估计 175
7.9.1 近似定义的算子 176
7.9.2 条件概率估计的SVM方法 178
7.9.3 SVM条件概率估计:总结 179
7.10 条件密度和回归的估计 179
7.11 评注 181
7.11.1 评注1.我们可以利用未知密度的一个好估计 181
7.11.2 评注2.我们可以利用有标号的(训练)数据,也可以利用无标号的(测试)数据 182
7.11.3 评注3.得到不适定问题的稀疏解的方法 182
非正式推导和评述——7 183
7.12 科学理论的三个要素 183
7.12.1 密度估计的问题 183
7.12.2 不适定问题的理论 184
7.13 随机不适定问题 184
第八章 邻域风险最小化原则与SVM 187
8.1 邻域风险最小化原则 187
8.1.1 硬邻域函数 188
8.1.2 软邻域函数 190
8.2 用于模式识别问题的VRM方法 190
8.3 邻域核的例子 193
8.3.1 硬邻域函数 194
8.3.2 软邻域函数 196
8.4 非对称邻域 197
8.5 对于估计实值函数的推广 198
8.6 密度和条件密度估计 200
8.6.1 估计密度函数 200
8.6.2 估计条件概率函数 201
8.6.3 估计条件密度函数 201
8.6.4 估计回归函数 203
非正式推导和评述——8 204
第九章 结论:什么是学习理论中重要的? 206
9.1 在问题的表示中什么是重要的? 206
9.2 在学习过程一致性理论中什么是重要的? 208
9.3 在界的理论中什么是重要的? 209
9.4 在控制学习机器推广能力的理论中什么是重要的? 209
9.5 在构造学习算法的理论中什么是重要的? 210
9.6 什么是最重要的? 211
参考文献及评述 213
对参考文献的评述 213
参考文献 214
索引 220