第1章 引言 1
1.1 什么是机器学习 1
1.2 机器学习的应用实例 2
1.2.1 学习关联性 2
1.2.2 分类 3
1.2.3 回归 5
1.2.4 非监督学习 6
1.2.5 增强学习 7
1.3 注释 8
1.4 相关资源 10
1.5 习题 11
1.6 参考文献 12
第2章 监督学习 13
2.1 由实例学习类 13
2.2 VC维 16
2.3 概率近似正确学习 16
2.4 噪声 17
2.5 学习多类 18
2.6 回归 19
2.7 模型选择与泛化 21
2.8 监督机器学习算法的维 23
2.9 注释 24
2.10 习题 25
2.11 参考文献 26
第3章 贝叶斯决策理论 27
3.1 引言 27
3.2 分类 28
3.3 损失与风险 29
3.4 判别式函数 30
3.5 关联规则 31
3.6 注释 33
3.7 习题 33
3.8 参考文献 36
第4章 参数方法 37
4.1 引言 37
4.2 最大似然估计 37
4.2.1 伯努利密度 38
4.2.2 多项式密度 38
4.2.3 高斯(正态)密度 39
4.3 评价估计:偏倚和方差 39
4.4 贝叶斯估计 40
4.5 参数分类 42
4.6 回归 44
4.7 调整模型的复杂度:偏倚/方差两难选择 46
4.8 模型选择过程 49
4.9 注释 51
4.10 习题 51
4.11 参考文献 53
第5章 多元方法 54
5.1 多元数据 54
5.2 参数估计 54
5.3 缺失值估计 55
5.4 多元正态分布 56
5.5 多元分类 57
5.6 调整复杂度 61
5.7 离散特征 62
5.8 多元回归 63
5.9 注释 64
5.10 习题 64
5.11 参考文献 66
第6章 维度归约 67
6.1 引言 67
6.2 子集选择 67
6.3 主成分分析 70
6.4 特征嵌入 74
6.5 因子分析 75
6.6 奇异值分解与矩阵分解 78
6.7 多维定标 79
6.8 线性判别分析 82
6.9 典范相关分析 85
6.10 等距特征映射 86
6.11 局部线性嵌入 87
6.12 拉普拉斯特征映射 89
6.13 注释 90
6.14 习题 91
6.15 参考文献 92
第7章 聚类 94
7.1 引言 94
7.2 混合密度 94
7.3 k均值聚类 95
7.4 期望最大化算法 98
7.5 潜在变量混合模型 100
7.6 聚类后的监督学习 101
7.7 谱聚类 102
7.8 层次聚类 103
7.9 选择簇个数 104
7.10 注释 104
7.11 习题 105
7.12 参考文献 106
第8章 非参数方法 107
8.1 引言 107
8.2 非参数密度估计 108
8.2.1 直方图估计 108
8.2.2 核估计 109
8.2.3 k最近邻估计 110
8.3 推广到多变元数据 111
8.4 非参数分类 112
8.5 精简的最近邻 112
8.6 基于距离的分类 113
8.7 离群点检测 115
8.8 非参数回归:光滑模型 116
8.8.1 移动均值光滑 116
8.8.2 核光滑 117
8.8.3 移动线光滑 119
8.9 如何选择光滑参数 119
8.10 注释 120
8.11 习题 121
8.12 参考文献 122
第9章 决策树 124
9.1 引言 124
9.2 单变量树 125
9.2.1 分类树 125
9.2.2 回归树 128
9.3 剪枝 130
9.4 由决策树提取规则 131
9.5 由数据学习规则 132
9.6 多变量树 134
9.7 注释 135
9.8 习题 137
9.9 参考文献 138
第10章 线性判别式 139
10.1 引言 139
10.2 推广线性模型 140
10.3 线性判别式的几何意义 140
10.3.1 两类问题 140
10.3.2 多类问题 141
10.4 逐对分离 142
10.5 参数判别式的进一步讨论 143
10.6 梯度下降 144
10.7 逻辑斯谛判别式 145
10.7.1 两类问题 145
10.7.2 多类问题 147
10.8 回归判别式 150
10.9 学习排名 151
10.10 注释 152
10.11 习题 152
10.12 参考文献 154
第11章 多层感知器 155
11.1 引言 155
11.1.1 理解人脑 155
11.1.2 神经网络作为并行处理的典范 156
11.2 感知器 157
11.3 训练感知器 159
11.4 学习布尔函数 160
11.5 多层感知器 161
11.6 作为普适近似的MLP 162
11.7 向后传播算法 163
11.7.1 非线性回归 163
11.7.2 两类判别式 166
11.7.3 多类判别式 166
11.7.4 多个隐藏层 167
11.8 训练过程 167
11.8.1 改善收敛性 167
11.8.2 过分训练 168
11.8.3 构造网络 169
11.8.4 线索 169
11.9 调整网络规模 170
11.10 学习的贝叶斯观点 172
11.11 维度归约 173
11.12 学习时间 174
11.12.1 时间延迟神经网络 175
11.12.2 递归网络 175
11.13 深度学习 176
11.14 注释 177
11.15 习题 178
11.16 参考文献 180
第12章 局部模型 182
12.1 引言 182
12.2 竞争学习 182
12.2.1 在线k均值 182
12.2.2 自适应共鸣理论 184
12.2.3 自组织映射 185
12.3 径向基函数 186
12.4 结合基于规则的知识 189
12.5 规范化基函数 190
12.6 竞争的基函数 191
12.7 学习向量量化 193
12.8 混合专家模型 193
12.8.1 协同专家模型 194
12.8.2 竞争专家模型 195
12.9 层次混合专家模型 195
12.10 注释 196
12.11 习题 196
12.12 参考文献 198
第13章 核机器 200
13.1 引言 200
13.2 最佳分离超平面 201
13.3 不可分情况:软边缘超平面 203
13.4 v-SVM 205
13.5 核技巧 205
13.6 向量核 206
13.7 定义核 207
13.8 多核学习 208
13.9 多类核机器 209
13.10 用于回归的核机器 210
13.11 用于排名的核机器 212
13.12 一类核机器 213
13.13 大边缘最近邻分类 215
13.14 核维度归约 216
13.15 注释 217
13.16 习题 217
13.17 参考文献 218
第14章 图方法 221
14.1 引言 221
14.2 条件独立的典型情况 222
14.3 生成模型 226
14.4 d分离 227
14.5 信念传播 228
14.5.1 链 228
14.5.2 树 229
14.5.3 多树 230
14.5.4 结树 232
14.6 无向图:马尔科夫随机场 232
14.7 学习图模型的结构 234
14.8 影响图 234
14.9 注释 234
14.10 习题 235
14.11 参考文献 237
第15章 隐马尔科夫模型 238
15.1 引言 238
15.2 离散马尔科夫过程 238
15.3 隐马尔科夫模型 240
15.4 HMM的三个基本问题 241
15.5 估值问题 241
15.6 寻找状态序列 244
15.7 学习模型参数 245
15.8 连续观测 247
15.9 HMM作为图模型 248
15.10 HMM中的模型选择 250
15.11 注释 251
15.12 习题 252
15.13 参考文献 254
第16章 贝叶斯估计 255
16.1 引言 255
16.2 离散分布的参数的贝叶斯估计 257
16.2.1 K>2个状态:狄利克雷分布 257
16.2.2 K=2个状态:贝塔分布 258
16.3 高斯分布的参数的贝叶斯估计 258
16.3.1 一元情况:未知均值,已知方差 258
16.3.2 一元情况:未知均值,未知方差 259
16.3.3 多元情况:未知均值,未知协方差 260
16.4 函数的参数的贝叶斯估计 261
16.4.1 回归 261
16.4.2 具有噪声精度先验的回归 264
16.4.3 基或核函数的使用 265
16.4.4 贝叶斯分类 266
16.5 选择先验 268
16.6 贝叶斯模型比较 268
16.7 混合模型的贝叶斯估计 270
16.8 非参数贝叶斯建模 272
16.9 高斯过程 272
16.10 狄利克雷过程和中国餐馆 275
16.11 本征狄利克雷分配 276
16.12 贝塔过程和印度自助餐 277
16.13 注释 278
16.14 习题 278
16.15 参考文献 279
第17章 组合多学习器 280
17.1 基本原理 280
17.2 产生有差异的学习器 280
17.3 模型组合方案 282
17.4 投票法 282
17.5 纠错输出码 285
17.6 装袋 286
17.7 提升 287
17.8 重温混合专家模型 288
17.9 层叠泛化 289
17.10 调整系综 290
17.10.1 选择系综的子集 290
17.10.2 构建元学习器 290
17.11 级联 291
17.12 注释 292
17.13 习题 293
17.14 参考文献 294
第18章 增强学习 297
18.1 引言 297
18.2 单状态情况:K臂赌博机问题 298
18.3 增强学习的要素 299
18.4 基于模型的学习 300
18.4.1 价值迭代 300
18.4.2 策略迭代 301
18.5 时间差分学习 301
18.5.1 探索策略 301
18.5.2 确定性奖励和动作 302
18.5.3 非确定性奖励和动作 303
18.5.4 资格迹 304
18.6 推广 305
18.7 部分可观测状态 306
18.7.1 场景 306
18.7.2 例子:老虎问题 307
18.8 注释 310
18.9 习题 311
18.10 参考文献 312
第19章 机器学习实验的设计与分析 314
19.1 引言 314
19.2 因素、响应和实验策略 315
19.3 响应面设计 317
19.4 随机化、重复和阻止 317
19.5 机器学习实验指南 318
19.6 交叉验证和再抽样方法 320
19.6.1 K折交叉验证 320
19.6.2 5×2交叉验证 320
19.6.3 自助法 321
19.7 度量分类器的性能 321
19.8 区间估计 324
19.9 假设检验 326
19.10 评估分类算法的性能 327
19.10.1 二项检验 327
19.10.2 近似正态检验 328
19.10.3 t检验 328
19.11 比较两个分类算法 329
19.11.1 McNemar检验 329
19.11.2 K折交叉验证配对t检验 329
19.11.3 5×2交叉验证配对t检验 330
19.11.4 5×2交叉验证配对F检验 330
19.12 比较多个算法:方差分析 331
19.13 在多个数据集上比较 333
19.13.1 比较两个算法 334
19.13.2 比较多个算法 335
19.14 多元检验 336
19.14.1 比较两个算法 336
19.14.2 比较多个算法 337
19.15 注释 338
19.16 习题 339
19.17 参考文献 340
附录A概率论 341
索引 348