第1章 绪论 1
1.1 什么是机器学习 1
1.2 机器学习的应用实例 2
1.2.1 学习关联性 2
1.2.2 分类 3
1.2.3 回归 5
1.2.4 非监督学习 6
1.2.5 增强学习 7
1.3 注释 8
1.4 相关资源 9
1.5 习题 10
1.6 参考文献 10
第2章 监督学习 11
2.1 由实例学习类 11
2.2 VC维 14
2.3 概率逼近正确学习 15
2.4 噪声 16
2.5 学习多类 18
2.6 回归 19
2.7 模型选择与泛化 20
2.8 监督机器学习算法的维 22
2.9 注释 23
2.10 习题 24
2.11 参考文献 24
第3章 贝叶斯决策定理 26
3.1 引言 26
3.2 分类 27
3.3 损失与风险 28
3.4 判别式函数 30
3.5 效用理论 31
3.6 信息值 31
3.7 贝叶斯网络 32
3.8 影响图 36
3.9 关联规则 36
3.10 注释 37
3.11 习题 37
3.12 参考文献 38
第4章 参数方法 39
4.1 引言 39
4.2 最大似然估计 39
4.2.1 伯努利密度 40
4.2.2 多项密度 40
4.2.3 高斯(正态)密度 41
4.3 评价估计:偏倚和方差 41
4.4 贝叶斯估计 42
4.5 参数分类 44
4.6 回归 47
4.7 调整模型的复杂度:偏倚/方差两难选择 49
4.8 模型选择过程 51
4.9 注释 53
4.10 习题 53
4.11 参考文献 54
第5章 多元方法 55
5.1 多元数据 55
5.2 参数估计 55
5.3 缺失值估计 56
5.4 多元正态分布 57
5.5 多元分类 59
5.6 调整复杂度 63
5.7 离散特征 64
5.8 多元回归 65
5.9 注释 66
5.10 习题 66
5.11 参考文献 67
第6章 维度归约 68
6.1 引言 68
6.2 子集选择 68
6.3 主成分分析 70
6.4 因子分析 74
6.5 多维定标 78
6.6 线性判别分析 80
6.7 注释 83
6.8 习题 84
6.9 参考文献 84
第7章 聚类 86
7.1 引言 86
7.2 混合密度 86
7.3 k-均值聚类 87
7.4 期望最大化算法 90
7.5 潜在变量混合模型 93
7.6 聚类后的监督学习 94
7.7 层次聚类 95
7.8 选择簇个数 96
7.9 注释 96
7.10 习题 97
7.11 参考文献 97
第8章 非参数方法 99
8.1 引言 99
8.2 非参数密度估计 99
8.2.1 直方图估计 100
8.2.2 核估计 101
8.2.3 k-最近邻估计 102
8.3 到多变元数据的推广 103
8.4 非参数分类 104
8.5 精简的最近邻 105
8.6 非参数回归:光滑模型 106
8.6.1 移动均值光滑 106
8.6.2 核光滑 108
8.6.3 移动线光滑 108
8.7 如何选择光滑参数 109
8.8 注释 110
8.9 习题 110
8.10 参考文献 111
第9章 决策树 113
9.1 引言 113
9.2 单变量树 114
9.2.1 分类树 114
9.2.2 回归树 118
9.3 剪枝 119
9.4 由决策树提取规则 120
9.5 由数据学习规则 121
9.6 多变量树 124
9.7 注释 125
9.8 习题 126
9.9 参考文献 127
第10章 线性判别式 128
10.1 引言 128
10.2 推广线性模型 129
10.3 线性判别式的几何意义 130
10.3.1 两类问题 130
10.3.2 多类问题 131
10.4 逐对分离 132
10.5 参数判别式的进一步讨论 133
10.6 梯度下降 134
10.7 逻辑斯谛判别式 135
10.7.1 两类问题 135
10.7.2 多类问题 137
10.8 回归判别式 141
10.9 支持向量机 142
10.9.1 最佳分离超平面 142
10.9.2 不可分情况:软边缘超平面 144
10.9.3 核函数 145
10.9.4 用于回归的支持向量机 147
10.10 注释 148
10.11 习题 148
10.12 参考文献 149
第11章 多层感知器 150
11.1 引言 150
11.1.1 理解人脑 150
11.1.2 神经网络作为并行处理的典范 151
11.2 感知器 152
11.3 训练感知器 154
11.4 学习布尔函数 156
11.5 多层感知器 157
11.6 MLP作为通用逼近器 159
11.7 后向传播算法 160
11.7.1 非线性回归 160
11.7.2 两类判别式 163
11.7.3 多类判别式 164
11.7.4 多个隐藏层 164
11.8 训练过程 164
11.8.1 改善收敛性 164
11.8.2 过分训练 165
11.8.3 构造网络 167
11.8.4 线索 168
11.9 调整网络规模 169
11.10 学习的贝叶斯观点 170
11.11 维度归约 171
11.12 学习时间 173
11.12.1 时间延迟神经网络 173
11.12.2 递归网络 174
11.13 注释 175
11.14 习题 176
11.15 参考文献 176
第12章 局部模型 179
12.1 引言 179
12.2 竞争学习 179
12.2.1 在线k-均值 179
12.2.2 自适应共鸣理论 182
12.2.3 自组织映射 183
12.3 径向基函数 184
12.4 结合基于规则的知识 188
12.5 规范化基函数 188
12.6 竞争的基函数 190
12.7 学习向量量化 192
12.8 混合专家模型 192
12.8.1 协同专家模型 194
12.8.2 竞争专家模型 194
12.9 层次混合专家模型 195
12.10 注释 195
12.11 习题 196
12.12 参考文献 196
第13章 隐马尔可夫模型 198
13.1 引言 198
13.2 离散马尔可夫过程 198
13.3 隐马尔可夫模型 200
13.4 HMM的三个基本问题 202
13.5 估值问题 202
13.6 寻找状态序列 204
13.7 学习模型参数 205
13.8 连续观测 208
13.9 带输入的HMM 208
13.10 HMM中的模型选择 209
13.11 注释 210
13.12 习题 211
13.13 参考文献 211
第14章 分类算法评估和比较 213
14.1 引言 213
14.2 交叉确认和再抽样方法 215
14.2.1 K-折交叉确认 215
14.2.2 5×2交叉确认 215
14.2.3 自助法 216
14.3 误差度量 216
14.4 区间估计 217
14.5 假设检验 220
14.6 评估分类算法的性能 221
14.6.1 二项检验 221
14.6.2 近似正态检验 222
14.6.3 配对t检验 222
14.7 比较两个分类算法 223
14.7.1 McNemar检验 223
14.7.2 K-折交叉确认配对t检验 223
14.7.3 5×2交叉确认配对t检验 224
14.7.4 5×2交叉确认配对F检验 225
14.8 比较多个分类算法:方差分析 225
14.9 注释 227
14.10 习题 228
14.11 参考文献 228
第15章 组合多学习器 230
15.1 基本原理 230
15.2 投票法 232
15.3 纠错输出码 234
15.4 装袋 235
15.5 提升 236
15.6 重温混合专家模型 238
15.7 层叠泛化 238
15.8 级联 239
15.9 注释 240
15.10 习题 241
15.11 参考文献 241
第16章 增强学习 243
16.1 引言 243
16.2 单状态情况:K臂赌博机问题 244
16.3 增强学习基础 245
16.4 基于模型的学习 246
16.4.1 价值迭代 247
16.4.2 策略迭代 247
16.5 时间差分学习 248
16.5.1 探索策略 248
16.5.2 确定性奖励和动作 248
16.5.3 非确定性奖励和动作 250
16.5.4 资格迹 251
16.6 推广 253
16.7 部分可观测状态 254
16.8 注释 255
16.9 习题 256
16.10 参考文献 257
附录A 概率论 258
索引 266