《机器学习 算法背后的理论与优化》PDF下载

  • 购买积分:9 如何计算积分?
  • 作  者:史春奇,卜晶祎,施智平著
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2019
  • ISBN:9787302517184
  • 页数:185 页
图书介绍:针对机器学习领域中最常见的一类问题——有监督学习,本书从入门、进阶、深化三个层面由浅入深地对该问题进行了讲解。三个层面包括基础入门算法层面、有监督学习的核心理论层面、理论背后的数学原理层面。基础入门算法部分以逻辑回归对整书所有涉及的知识点进行了串联;核心理论涵盖了结构风险最小、正则化、以及求解时使用的最优化理论;数学原理则主要包括最大熵原理、拉格朗日乘数法、Fenchel对偶等理论在数学上的推导。

第1章 线性回归与逻辑回归 1

1.1 线性回归 1

1.1.1 函数关系与统计关系 1

1.1.2 统计与机器学习 2

1.2 最小二乘法与高斯-马尔可夫定理 5

1.2.1 最小二乘法 5

1.2.2 高斯-马尔可夫定理 6

1.3 从线性回归到逻辑回归 8

1.4 最大似然估计求解逻辑回归 9

1.5 最小二乘与最大似然 11

1.5.1 逻辑回归与伯努利分布 11

1.5.2 线性回归与正态分布 12

1.6 小结 13

参考文献 13

第2章 广义线性模型 15

2.1 广义线性模型概述 15

2.1.1 广义线性模型的定义 15

2.1.2 链接函数与指数分布簇 17

2.2 广义线性模型求解 20

2.3 最大似然估计Ⅰ:Fisher信息 21

2.4 最大似然估计Ⅱ:KL散度与Bregman散度 23

2.4.1 KL散度 23

2.4.2 Bregman散度 25

2.5 小结 26

参考文献 26

第3章 经验风险最小 28

3.1 经验风险与泛化误差概述 28

3.1.1 经验风险 30

3.1.2 泛化误差 30

3.1.3 欠拟合和过拟合 34

3.1.4 VC维 37

3.2 经验风险最小的算法 40

3.3 分类边界 42

3.3.1 分类算法的损失函数 42

3.3.2 分类算法的边界 45

3.4 小结 48

参考文献 48

第4章 结构风险最小 49

4.1 经验风险最小和过拟合 49

4.2 结构风险最小和正则化 51

4.2.1 从空间角度理解SRM 52

4.2.2 从贝叶斯观点理解SRM 54

4.3 回归的正则化 55

4.3.1 L2正则化和岭回归 56

4.3.2 L1正则化和Lasso回归 57

4.3.3 L1、L2组合正则化和ElasticNet回归 58

4.4 分类的正则化 60

4.4.1 支持向量机和L2正则化 60

4.4.2 XGBoost和树正则化 62

4.4.3 神经网络和DropOut正则化 65

4.4.4 正则化的优缺点 66

4.5 小结 67

参考文献 67

第5章 贝叶斯统计与熵 68

5.1 统计学习的基础:参数估计 68

5.1.1 矩估计 68

5.1.2 最大似然估计 69

5.1.3 最小二乘法 71

5.2 概率分布与三大统计思维 72

5.2.1 频率派和正态分布 72

5.2.2 经验派和正态分布 75

5.2.3 贝叶斯派和正态分布 76

5.2.4 贝叶斯统计和熵的关系 79

5.3 信息熵的理解 79

5.3.1 信息熵简史 79

5.3.2 信息熵定义 80

5.3.3 期望编码长度解释 81

5.3.4 不确定性公理化解释 81

5.3.5 基于熵的度量 84

5.4 最大熵原理 86

5.4.1 最大熵的直观理解 86

5.4.2 最大熵解释自然指数分布簇 87

5.4.3 最大熵解释最大似然估计 89

5.5 小结 90

参考文献 91

第6章 基于熵的Softmax 92

6.1 二项分布和多项分布 92

6.2 Logistic回归和Softmax回归 93

6.2.1 广义线性模型的解释 93

6.2.2 Softmax回归 94

6.2.3 最大熵原理与Softmax回归的等价性 96

6.3 最大熵条件下的Log-Linear 101

6.4 多分类界面 103

6.4.1 感知机和多分类感知机 104

6.4.2 多分类感知机和结构感知机 105

6.5 概率图模型里面的Log-Linear 106

6.6 深度学习里面的Softmax层 108

6.7 小结 109

参考文献 109

第7章 拉格朗日乘子法 111

7.1 凸共轭 111

7.1.1 凸共轭的定义 111

7.1.2 凸共轭定理 113

7.2 拉格朗日对偶 114

7.2.1 拉格朗日对偶概述 115

7.2.2 Salter条件 117

7.2.3 KKT条件 118

7.3 Fenchel对偶 120

7.4 增广拉格朗日乘子法 123

7.4.1 近端 123

7.4.2 增广拉格朗日乘子法和对偶上升算法 126

7.5 交替方向乘子法 129

7.5.1 对偶分解 130

7.5.2 交替方向乘子法概述 131

7.6 小结 131

参考文献 132

第8章 随机梯度下降法 134

8.1 随机梯度下降法概述 134

8.1.1 机器学习场景 134

8.1.2 随机梯度下降法的定义 135

8.1.3 随机梯度下降法收敛性分析 136

8.1.4 收敛性证明 139

8.2 随机梯度下降法进阶Ⅰ:方差缩减 140

8.2.1 方差缩减的效果 141

8.2.2 方差缩减的实现 143

8.3 随机梯度下降法进阶Ⅱ:加速与适应 145

8.3.1 加速 146

8.3.2 适应 148

8.3.3 加速×适应 151

8.4 随机梯度下降法的并行实现 156

8.5 小结 160

参考文献 161

第9章 常见的最优化方法 163

9.1 最速下降算法 163

9.1.1 l2范数与梯度下降法 164

9.1.2 l1范数与坐标下降算法 165

9.1.3 二次范数与牛顿法 166

9.2 步长的设定 168

9.2.1 Armijo-Goldstein准则 169

9.2.2 Wolfe-Powell准则 170

9.2.3 回溯线搜索 171

9.3 收敛性分析 171

9.3.1 收敛速率 172

9.3.2 对目标函数的一些假设 173

9.4 一阶算法:梯度下降法 177

9.5 二阶算法:牛顿法及其衍生算法 178

9.5.1 牛顿法与梯度下降法的对比 179

9.5.2 拟牛顿法 180

9.5.3 从二次范数的角度看牛顿法 182

9.6 小结 183

参考文献 185