第1章 引言:分类、学习、特征及应用 1
1.1范围 1
1.2为什么需要机器学习? 1
1.3一些应用 2
1.3.1图像识别 2
1.3.2语音识别 3
1.3.3医学诊断 3
1.3.4统计套利 3
1.4测量、特征和特征向量 4
1.5概率的需要 4
1.6监督学习 5
1.7小结 5
1.8附录:归纳法 5
1.9问题 6
1.10参考文献 6
第2章 概率 8
2.1一些基本事件的概率 8
2.2复合事件的概率 9
2.3条件概率 11
2.4不放回抽取 12
2.5一个经典的生日问题 12
2.6随机变量 13
2.7期望值 13
2.8方差 14
2.9小结 16
2.10附录:概率诠释 16
2.11问题 17
2.12参考文献 18
第3章 概率密度 20
3.1一个二维实例 20
3.2在[0, 1]区间的随机数 20
3.3密度函数 21
3.4高维空间中的概率密度 23
3.5联合密度和条件密度 24
3.6期望和方差 24
3.7大数定律 25
3.8小结 26
3.9附录:可测性 26
3.10问题 27
3.11参考文献 28
第4章 模式识别问题 29
4.1一个简单例子 29
4.2决策规则 29
4.3成功基准 31
4.4最佳分类器:贝叶斯决策规则 32
4.5连续特征和密度 32
4.6小结 33
4.7附录:不可数概念 33
4.8问题 35
4.9参考文献 35
第5章 最优贝叶斯决策规则 37
5.1贝叶斯定理 37
5.2贝叶斯决策规则 38
5.3最优及其评论 39
5.4一个例子 40
5.5基于密度函数的贝叶斯定理及决策规则 42
5.6小结 42
5.7附录:条件概率的定义 43
5.8问题 43
5.9参考文献 46
第6章 从实例中学习 47
6.1概率分布知识的欠缺 47
6.2训练数据 48
6.3对训练数据的假设 49
6.4蛮力学习方法 50
6.5维数灾难、归纳偏置以及无免费午餐原理 51
6.6小结 52
6.7附录:学习的类型 53
6.8问题 54
6.9参考文献 54
第7章 最近邻规则 56
7.1最近邻规则 56
7.2最近邻规则的性能 57
7.3直觉判断与性能证明框架 58
7.4使用更多邻域 59
7.5小结 60
7.6附录:当人们使用最近邻域进行推理时的一些问题 60
7.6.1谁是单身汉? 60
7.6.2法律推理 61
7.6.3道德推理 61
7.7问题 62
7.8参考文献 62
第8章 核规则 64
8.1动机 64
8.2最近邻规则的变体 65
8.3核规则 65
8.4核规则的通用一致性 68
8.5势函数 69
8.6更多的通用核 70
8.7小结 71
8.8附录:核、相似性和特征 71
8.9问题 72
8.10参考文献 73
第9章 神经网络:感知器 75
9.1多层前馈网络 75
9.2神经网络用于学习和分类 77
9.3感知器 78
9.3.1阈值 78
9.4感知器学习规则 79
9.5感知器的表达能力 80
9.6小结 82
9.7附录:思想模型 83
9.8问题 84
9.9参考文献 85
第10章 多层神经网络 86
10.1多层网络的表征能力 86
10.2学习及S形输出 88
10.3训练误差和权值空间 90
10.4基于梯度下降的误差最小化 91
10.5反向传播 92
10.6反向传播方程的推导 95
10.6.1单神经元情况下的推导 95
10.6.2多层网络情况下的推导 95
10.7小结 97
10.8附录:梯度下降与反射平衡推理 97
10.9问题 98
10.10参考文献 99
第11章 可能近似正确(PAC)学习 100
11.1决策规则分类 100
11.2来自一个类中的最优规则 101
11.3可能近似正确准则 102
11.4 PAC学习 103
11.5小结 104
11.6附录:识别不可辨元 105
11.7问题 106
11.8参考文献 106
第12章VC维 108
12.1近似误差和估计误差 108
12.2打散 109
12.3 VC维 110
12.4学习结果 110
12.5举例 111
12.6神经网络应用 114
12.7小结 114
12.8附录:VC维与波普尔(Popper)维度 115
12.9问题 115
12.10参考文献 116
第13章 无限VC维 118
13.1类层次及修正的PAC准则 118
13.2失配与复杂性间的平衡 119
13.3学习结果 120
13.4归纳偏置与简单性 120
13.5小结 121
13.6附录:均匀收敛与泛一致性 121
13.7问题 122
13.8参考文献 123
第14章 函数估计问题 124
14.1估计 124
14.2成功准则 124
14.3最优估计:回归函数 125
14.4函数估计中的学习 126
14.5小结 126
14.6附录:均值回归 127
14.7问题 127
14.8参考文献 128
第15章 学习函数估计 129
15.1函数估计与回归问题回顾 129
15.2最近邻规则 129
15.3核方法 130
15.4神经网络学习 130
15.5基于确定函数类的估计 131
15.6打散、伪维数与学习 132
15.7结论 133
15.8附录:估计中的准确度、精度、偏差及方差 134
15.9问题 135
15.10参考文献 135
第16章 简明性 137
16.1科学中的简明性 137
16.1.1对简明性的明确倡导 137
16.1.2这个世界简单吗? 137
16.1.3对简明性的错误诉求 138
16.1.4对简明性的隐性诉求 138
16.2排序假设 138
16.2.1两种简明性排序法 139
16.3两个实例 140
16.3.1曲线拟合 140
16.3.2枚举归纳 141
16.4简明性即表征简明性 141
16.4.1要确定表征系统吗? 142
16.4.2参数越少越简单吗? 143
16.5简明性的实用理论 143
16.6简明性和全局不确定性 144
16.7小结 144
16.8附录:基础科学和统计学习理论 144
16.9问题 145
16.10参考文献 146
第17章 支持向量机 148
17.1特征向量的映射 149
17.2间隔最大化 150
17.3优化与支持向量 153
17.4实现及其与核方法的关联 154
17.5优化问题的细节 155
17.5.1改写分离条件 155
17.5.2间隔方程 155
17.5.3用于不可分实例的松弛变量 156
17.5.4优化问题的重构和求解 156
17.6小结 157
17.7附录:计算 158
17.8问题 159
17.9参考文献 160
第18章 集成学习 161
18.1弱学习规则 161
18.2分类器组合 162
18.3训练样本的分布 163
18.4自适应集成学习算法(AdaBoost) 163
18.5训练数据的性能 165
18.6泛化性能 165
18.7小结 167
18.8附录:集成方法 167
18.9问题 168
18.10参考文献 168