第1章 统计学习方法概论 1
1.1 统计学习 1
1.2 监督学习 3
1.2.1 基本概念 4
1.2.2 问题的形式化 5
1.3 统计学习三要素 6
1.3.1 模型 6
1.3.2 策略 7
1.3.3 算法 9
1.4 模型评估与模型选择 10
1.4.1 训练误差与测试误差 10
1.4.2 过拟合与模型选择 11
1.5 正则化与交叉验证 13
1.5.1 正则化 13
1.5.2 交叉验证 14
1.6 泛化能力 15
1.6.1 泛化误差 15
1.6.2 泛化误差上界 15
1.7 生成模型与判别模型 17
1.8 分类问题 18
1.9 标注问题 20
1.10 回归问题 21
本章概要 23
继续阅读 23
习题 23
参考文献 24
第2章 感知机 25
2.1 感知机模型 25
2.2 感知机学习策略 26
2.2.1 数据集的线性可分性 26
2.2.2 感知机学习策略 26
2.3 感知机学习算法 28
2.3.1 感知机学习算法的原始形式 28
2.3.2 算法的收敛性 31
2.3.3 感知机学习算法的对偶形式 33
本章概要 35
继续阅读 36
习题 36
参考文献 36
第3章 k近邻法 37
3.1 k近邻算法 37
3.2 k近邻模型 38
3.2.1 模型 38
3.2.2 距离度量 38
3.2.3 k值的选择 40
3.2.4 分类决策规则 40
3.3 k近邻法的实现:kd树 41
3.3.1 构造kd树 41
3.3.2 搜索kd树 42
本章概要 44
继续阅读 45
习题 45
参考文献 45
第4章 朴素贝叶斯法 47
4.1 朴素贝叶斯法的学习与分类 47
4.1.1 基本方法 47
4.1.2 后验概率最大化的含义 48
4.2 朴素贝叶斯法的参数估计 49
4.2.1 极大似然估计 49
4.2.2 学习与分类算法 50
4.2.3 贝叶斯估计 51
本章概要 52
继续阅读 53
习题 53
参考文献 53
第5章 决策树 55
5.1 决策树模型与学习 55
5.1.1 决策树模型 55
5.1.2 决策树与if-then规则 56
5.1.3 决策树与条件概率分布 56
5.1.4 决策树学习 56
5.2 特征选择 58
5.2.1 特征选择问题 58
5.2.2 信息增益 60
5.2.3 信息增益比 63
5.3 决策树的生成 63
5.3.1 ID3算法 63
5.3.2 C4.5的生成算法 65
5.4 决策树的剪枝 65
5.5 CART算法 67
5.5.1 CART生成 68
5.5.2 CART剪枝 72
本章概要 73
继续阅读 75
习题 75
参考文献 75
第6章 逻辑斯谛回归与最大熵模型 77
6.1 逻辑斯谛回归模型 77
6.1.1 逻辑斯谛分布 77
6.1.2 二项逻辑斯谛回归模型 78
6.1.3 模型参数估计 79
6.1.4 多项逻辑斯谛回归 79
6.2 最大熵模型 80
6.2.1 最大熵原理 80
6.2.2 最大熵模型的定义 82
6.2.3 最大熵模型的学习 83
6.2.4 极大似然估计 87
6.3 模型学习的最优化算法 88
6.3.1 改进的迭代尺度法 88
6.3.2 拟牛顿法 91
本章概要 92
继续阅读 93
习题 94
参考文献 94
第7章 支持向量机 95
7.1 线性可分支持向量机与硬间隔最大化 95
7.1.1 线性可分支持向量机 95
7.1.2 函数间隔和几何间隔 97
7.1.3 间隔最大化 99
7.1.4 学习的对偶算法 103
7.2 线性支持向量机与软问隔最大化 108
7.2.1 线性支持向量机 108
7.2.2 学习的对偶算法 110
7.2.3 支持向量 113
7.2.4 合页损失函数 113
7.3 非线性支持向量机与核函数 115
7.3.1 核技巧 115
7.3.2 正定核 118
7.3.3 常用核函数 122
7.3.4 非线性支持向量分类机 123
7.4 序列最小最优化算法 124
7.4.1 两个变量二次规划的求解方法 125
7.4.2 变量的选择方法 128
7.4.3 SMO算法 130
本章概要 131
继续阅读 133
习题 134
参考文献 134
第8章 提升方法 137
8.1 提升方法AdaBoost算法 137
8.1.1 提升方法的基本思路 137
8.1.2 AdaBoost算法 138
8.1.3 AdaBoost的例子 140
8.2 AdaBoost算法的训练误差分析 142
8.3 AdaBoost算法的解释 143
8.3.1 前向分步算法 144
8.3.2 前向分步算法与AdaBoost 145
8.4 提升树 146
8.4.1 提升树模型 147
8.4.2 提升树算法 147
8.4.3 梯度提升 151
本章概要 152
继续阅读 153
习题 153
参考文献 153
第9章 EM算法及其推广 155
9.1 EM算法的引入 155
9.1.1 EM算法 155
9.1.2 EM算法的导出 158
9.1.3 EM算法在非监督学习中的应用 160
9.2 EM算法的收敛性 160
9.3 EM算法在高斯混合模型学习中的应用 162
9.3.1 高斯混合模型 162
9.3.2 高斯混合模型参数估计的EM算法 163
9.4 EM算法的推广 166
9.4.1 F函数的极大-极大算法 166
9.4.2 GEM算法 168
本章概要 169
继续阅读 170
习题 170
参考文献 170
第10章 隐马尔可夫模型 171
10.1 隐马尔可夫模型的基本概念 171
10.1.1 隐马尔可夫模型的定义 171
10.1.2 观测序列的生成过程 174
10.1.3 隐马尔可夫模型的3个基本问题 174
10.2 概率计算算法 174
10.2.1 直接计算法 175
10.2.2 前向算法 175
10.2.3 后向算法 178
10.2.4 一些概率与期望值的计算 179
10.3 学习算法 180
10.3.1 监督学习方法 180
10.3.2 Baum-Welch算法 181
10.3.3 Baum-Welch模型参数估计公式 183
10.4 预测算法 184
10.4.1 近似算法 184
10.4.2 维特比算法 184
本章概要 187
继续阅读 188
习题 188
参考文献 189
第11章 条件随机场 191
11.1 概率无向图模型 191
11.1.1 模型定义 191
11.1.2 概率无向图模型的因子分解 193
11.2 条件随机场的定义与形式 194
11.2.1 条件随机场的定义 194
11.2.2 条件随机场的参数化形式 195
11.2.3 条件随机场的简化形式 197
11.2.4 条件随机场的矩阵形式 198
11.3 条件随机场的概率计算问题 199
11.3.1 前向-后向算法 199
11.3.2 概率计算 200
11.3.3 期望值的计算 201
11.4 条件随机场的学习算法 201
11.4.1 改进的迭代尺度法 202
11.4.2 拟牛顿法 205
11.5 条件随机场的预测算法 206
本章概要 208
继续阅读 209
习题 209
参考文献 210
第12章 统计学习方法总结 211
附录A 梯度下降法 217
附录B 牛顿法和拟牛顿法 219
附录C 拉格朗日对偶性 225
索引 229