第1章 线性建模:最小二乘法 1
1.1线性建模 1
1.1.1定义模型 2
1.1.2模型假设 2
1.1.3定义什么是好的模型 3
1.1.4最小二乘解:一个有效的例子 4
1.1.5有效的例子 7
1.1.6奥运会数据的最小二乘拟合 8
1.1.7小结 9
1.2预测 9
1.2.1第二个奥运会数据集 10
1.2.2小结 12
1.3向量/矩阵符号 12
1.3.1例子 17
1.3.2数值的例子 18
1.3.3预测 19
1.3.4小结 19
1.4线性模型的非线性响应 19
1.5泛化与过拟合 22
1.5.1验证数据 22
1.5.2交叉验证 23
1.5.3 K折交叉验证的计算缩放 25
1.6正则化最小二乘法 25
1.7练习 27
其他阅读材料 28
第2章 线性建模:最大似然方法 29
2.1误差作为噪声 29
2.2随机变量和概率 30
2.2.1随机变量 30
2.2.2概率和概率分布 31
2.2.3概率的加法 32
2.2.4条件概率 32
2.2.5联合概率 33
2.2.6边缘化 34
2.2.7贝叶斯规则介绍 36
2.2.8期望值 37
2.3常见的离散分布 39
2.3.1伯努利分布 39
2.3.2二项分布 39
2.3.3多项分布 40
2.4连续型随机变量——概率密度函数 40
2.5常见的连续概率密度函数 42
2.5.1均匀密度函数 42
2.5.2β密度函数 43
2.5.3高斯密度函数 44
2.5.4多元高斯 44
2.5.5小结 46
2.6产生式的考虑(续) 46
2.7似然估计 47
2.7.1数据集的似然值 48
2.7.2最大似然 49
2.7.3最大似然解的特点 50
2.7.4最大似然法适用于复杂模型 52
2.8偏差-方差平衡问题 53
2.9噪声对参数估计的影响 53
2.9.1参数估计的不确定性 54
2.9.2与实验数据比较 57
2.9.3模型参数的变异性——奥运会数据 58
2.10预测值的变异性 59
2.10.1预测值的变异性——一个例子 59
2.10.2估计值的期望值 61
2.10.3小结 63
2.11练习 63
其他阅读材料 64
第3章 机器学习的贝叶斯方法 66
3.1硬币游戏 66
3.1.1计算正面朝上的次数 67
3.1.2贝叶斯方法 67
3.2精确的后验 70
3.3三个场景 71
3.3.1没有先验知识 71
3.3.2公平的投币 76
3.3.3有偏的投币 78
3.3.4三个场景——总结 80
3.3.5增加更多的数据 80
3.4边缘似然估计 80
3.5超参数 82
3.6图模型 83
3.7奥运会100米数据的贝叶斯处理实例 84
3.7.1模型 84
3.7.2似然估计 85
3.7.3先验概率 85
3.7.4后验概率 85
3.7.5 1阶多项式 87
3.7.6预测 89
3.8边缘似然估计用于多项式模型阶的选择 90
3.9小结 91
3.10练习 91
其他阅读材料 92
第4章 贝叶斯推理 94
4.1非共轭模型 94
4.2二值响应 94
4.3点估计:最大后验估计方案 96
4.4拉普拉斯近似 100
4.4.1拉普拉斯近似实例:近似γ密度 101
4.4.2二值响应模型的拉普拉斯近似 102
4.5抽样技术 103
4.5.1玩飞镖游戏 104
4.5.2 Metropolis-Hastings算法 105
4.5.3抽样的艺术 110
4.6小结 111
4.7练习 111
其他阅读材料 111
第5章 分类 113
5.1一般问题 113
5.2概率分类器 113
5.2.1贝叶斯分类器 114
5.2.2逻辑回归 121
5.3非概率分类器 123
5.3.1 K近邻算法 123
5.3.2支持向量机和其他核方法 125
5.3.3小结 132
5.4评价分类器的性能 133
5.4.1准确率——0/1损失 133
5.4.2敏感性和特异性 133
5.4.3 ROC曲线下的区域 134
5.4.4 混淆矩阵 135
5.5判别式和产生式分类器 136
5.6小结 136
5.7练习 136
其他阅读材料 137
第6章 聚类分析 138
6.1一般问题 138
6.2 K均值聚类 139
6.2.1聚类数目的选择 141
6.2.2 K均值的不足之处 141
6.2.3核化K均值 141
6.2.4小结 144
6.3混合模型 144
6.3.1生成过程 144
6.3.2混合模型似然函数 146
6.3.3 EM算法 146
6.3.4例子 151
6.3.5 EM寻找局部最优 153
6.3.6组分数目的选择 153
6.3.7混合组分的其他形式 154
6.3.8用EM估计MAP 156
6.3.9贝叶斯混合模型 157
6.4小结 157
6.5练习 157
其他阅读材料 158
第7章 主成分分析与隐变量模型 159
7.1一般问题 159
7.2主成分分析 161
7.2.1选择D 164
7.2.2 PCA的局限性 165
7.3隐变量模型 165
7.3.1隐变量模型中的混合模型 165
7.3.2小结 166
7.4变分贝叶斯 166
7.4.1选择Q(θ) 167
7.4.2优化边界 168
7.5 PCA的概率模型 168
7.5.1 Qτ(τ) 169
7.5.2Qx(xn) 170
7.5.3Qω(wm) 171
7.5.4期望值要求 171
7.5.5算法 172
7.5.6例子 173
7.6缺失值 174
7.6.1缺失值作为隐变量 176
7.6.2预测缺失值 176
7.7非实值数据 177
7.7.1概率PPCA 177
7.7.2议会数据可视化 180
7.8小结 184
7.9练习 184
其他阅读材料 184
词汇表 185
索引 188