第1部分 概要 1
1绪论 2
1.1人工智能、机器学习与深度学习的关系 3
1.1.1人工智能——机器推理 4
1.1.2机器学习——数据驱动的科学 5
1.1.3深度学习——大脑的仿真 8
1.2深度学习的发展历程 8
1.3深度学习技术概述 10
1.3.1从低层到高层的特征抽象 11
1.3.2让网络变得更深 13
1.3.3自动特征提取 14
1.4深度学习框架 15
2 Theano基础 19
2.1符号变量 20
2.2符号计算的抽象——符号计算图模型 23
2.3函数 26
2.3.1函数的定义 26
2.3.2 Logistic回归 27
2.3.3函数的复制 29
2.4条件表达式 31
2.5循环 32
2.6共享变量 39
2.7配置 39
2.7.1通过THEANO_ FLAGS配置 40
2.7.2通过.theanorc文件配置 41
2.8常用的Debug技巧 42
2.9小结 43
第2部分 数学与机器学习基础篇 45
3线性代数基础 46
3.1标量、向量、矩阵和张量 46
3.2矩阵初等变换 47
3.3线性相关与向量空间 48
3.4范数 49
3.4.1向量范数 49
3.4.2矩阵范数 53
3.5特殊的矩阵与向量 56
3.6特征值分解 57
3.7奇异值分解 58
3.8迹运算 60
3.9样例:主成分分析 61
4概率统计基础 64
4.1样本空间与随机变量 65
4.2概率分布与分布函数 65
4.3一维随机变量 66
4.3.1离散随机变量和分布律 66
4.3.2连续随机变量和概率密度函数 67
4.4多维随机变量 68
4.4.1离散型二维随机变量和联合分布律 69
4.4.2连续型二维随机变量和联合密度函数 69
4.5边缘分布 70
4.6条件分布与链式法则 71
4.6.1条件概率 71
4.6.2链式法则 73
4.7多维随机变量的独立性分析 73
4.7.1边缘独立 74
4.7.2条件独立 74
4.8数学期望、方差、协方差 75
4.8.1数学期望 75
4.8.2方差 76
4.8.3协方差 76
4.8.4协方差矩阵 78
4.9信息论基础 81
4.9.1信息熵 81
4.9.2条件熵 83
4.9.3互信息 84
4.9.4相对熵与交叉熵 84
5概率图模型 87
5.1生成模型与判别模型 89
5.2图论基础 90
5.2.1图的结构 90
5.2.2子图 91
5.2.3路径、迹、环与拓扑排序 92
5.3贝叶斯网络 95
5.3.1因子分解 96
5.3.2局部马尔科夫独立性断言 99
5.3.3 I-Map与因子分解 100
5.3.4有效迹 103
5.3.5 D-分离与全局马尔科夫独立性 108
5.4马尔科夫网络 108
5.4.1势函数因子与参数化表示 109
5.4.2马尔科夫独立性 111
5.5变量消除 114
5.6信念传播 116
5.6.1聚类图 116
5.6.2团树 120
5.6.3由变量消除构建团树 123
5.7 MCMC采样原理 126
5.7.1随机采样 127
5.7.2随机过程与马尔科夫链 128
5.7.3 M C M C采样 132
5.7.4 Gibbs采样 134
5.8参数学习 137
5.8.1最大似然估计 137
5.8.2期望最大化算法 138
5.9小结 140
6机器学习基础 142
6.1线性模型 143
6.1.1线性回归 143
6.1.2 Logistic回归 148
6.1.3广义的线性模型 150
6.2支持向量机 151
6.2.1最优间隔分类器 152
6.2.2对偶问题 155
6.2.3核函数 156
6.3朴素贝叶斯 160
6.4树模型 162
6.4.1特征选择 163
6.4.2剪枝策略 165
6.5聚类 166
6.5.1距离度量 167
6.5.2层次聚类 168
6.5.3 K-means聚类 171
6.5.4谱聚类 172
7数值计算与最优化 177
7.1无约束极小值的最优化条件 177
7.2梯度下降 179
7.2.1传统更新策略 181
7.2.2动量更新策略 183
7.2.3改进的动量更新策略 184
7.2.4自适应梯度策略 187
7.3共轭梯度 188
7.4牛顿法 192
7.5拟牛顿法 194
7.5.1拟牛顿条件 194
7.5.2 DFP算法 195
7.5.3 BFGS算法 196
7.5.4 L-BFGS算法 197
7.6约束最优化条件 200
第3部分 理论与应用篇 205
8前馈神经网络 206
8.1生物神经元结构 207
8.2人工神经元结构 208
8.3单层感知机 209
8.4多层感知机 212
8.5激活函数 217
8.5.1激活函数的作用 217
8.5.2常用的激活函数 219
9反向传播与梯度消失 225
9.1经验风险最小化 227
9.2梯度计算 228
9.2.1输出层梯度 228
9.2.2隐藏层梯度 230
9.2.3参数梯度 234
9.3反向传播 235
9.4深度学习训练的难点 237
9.4.1欠拟合——梯度消失 237
9.4.2过拟合 240
10自编码器及其相关模型 243
10.1自编码器 243
10.2降噪自编码器 245
10.3栈式自编码器 247
10.4稀疏编码器 250
10.5应用:cifar10图像分类 254
11玻尔兹曼机及其相关模型 258
11.1玻尔兹曼机 258
11.2能量模型 261
11.2.1能量函数 261
11.2.2从能量函数到势函数 262
11.2.3从势函数到概率分布 263
11.3推断 264
11.3.1边缘分布 265
11.3.2条件分布 267
11.4学习 270
11.4.1最大似然估计 271
11.4.2对比散度 274
11.5应用:个性化推荐 276
11.5.1个性化推荐概述 276
11.5.2个性化推荐架构与算法 279
11.5.3 RBM与协同过滤 285
12递归神经网络 291
12.1 Elman递归神经网络 292
12.2时间反向传播 295
12.3长短时记忆网络 299
12.4结构递归神经网络 302
12.5应用:语言模型 308
12.5.1 N元统计模型 308
12.5.2基于LSTM构建语言模型 312
13卷积神经网络 318
13.1卷积运算 319
13.2网络结构 320
13.3卷积层 324
13.4池化层 329
13.5应用:文本分类 333