第一章 绪论 1
1.1 机器翻译概述 2
1.1.1 机器翻译定义 2
1.1.2 机器翻译简史 2
1.1.3 机器翻译方法 6
1.1.4 机器翻译分析及展望 11
1.2 机器翻译的应用 13
1.2.1 文本翻译 13
1.2.2 语音翻译 14
1.2.3 应用扩展 15
1.3 本书章节总览 17
参考文献 20
第二章 机器翻译语料和评测 22
2.1 机器翻译语料 23
2.1.1 单语语料 23
2.1.2 双语语料 24
2.1.3 语料获取 24
2.1.4 语料处理 28
2.2 机器翻译评测 29
2.2.1 人工评测 29
2.2.2 自动评测 30
2.2.3 评测活动 34
参考文献 35
第三章 统计机器翻译基础 37
3.1 统计机器翻译简介 38
3.1.1 统计机器翻译系统框架 38
3.1.2 统计机器翻译基本流程 39
3.2 统计机器翻译建模 40
3.2.1 噪声-信道模型 40
3.2.2 对数-线性模型 42
3.2.3 模型训练方法 43
3.3 语言模型 45
3.3.1 n元文法语言模型定义 46
3.3.2 语言模型的平滑 47
3.3.3 语言模型的评价指标 49
3.4 翻译模型 50
3.4.1 词汇翻译模型 50
3.4.2 短语翻译模型 58
3.5 调序模型 60
3.5.1 基于跳转距离的调序模型 60
3.5.2 词汇化调序模型 61
3.5.3 基于句法的调序模型 62
3.6 扩展阅读 64
参考文献 65
第四章 统计机器翻译系统模型 71
4.1 基于短语的统计机器翻译模型 72
4.1.1 噪声-信道模型短语翻译模型 72
4.1.2 对数-线性模型短语翻译模型 72
4.1.3 解码 74
4.2 基于形式文法的统计机器翻译模型 81
4.2.1 基于反向转录文法的统计机器翻译模型 82
4.2.2 基于层次化短语的统计机器翻译模型 83
4.3 基于句法的统计机器翻译系统模型 86
4.3.1 树到串的翻译模型 86
4.3.2 串到树的翻译模型 87
4.4 多系统融合 92
4.4.1 句子级系统融合 92
4.4.2 短语级系统融合 93
4.4.3 词级系统融合 94
4.5 领域自适应 96
4.5.1 基于数据选择的领域自适应 97
4.5.2 基于自学习的领域自适应 98
4.5.3 基于上下文信息的领域自适应 98
4.6 统计机器翻译开源工具 99
4.7 扩展阅读 100
参考文献 101
第五章 自然语言处理中的深度学习基础 106
5.1 深度学习基础 107
5.1.1 简介 107
5.1.2 感知机 108
5.1.3 多层感知机 109
5.1.4 激活函数 111
5.1.5 反向传播算法 113
5.2 神经网络学习算法 117
5.2.1 随机梯度下降算法 117
5.2.2 基于动量的随机梯度下降算法 119
5.2.3 AdaGrad算法 120
5.2.4 RMSProp算法 121
5.2.5 AdaDelta算法 122
5.2.6 Adam算法 123
5.2.7 不同参数更新方法的比较 123
5.3 自然语言处理中常用的神经网络模型 124
5.3.1 前馈神经网络 125
5.3.2 循环神经网络 129
5.3.3 长短时记忆网络 133
5.3.4 深层循环神经网络 137
5.3.5 卷积神经网络 138
5.3.6 通用词嵌入 143
5.4 扩展阅读 147
5.5 词汇缩写详解 149
参考文献 149
第六章 神经机器翻译 153
6.1 简单的神经网络机器翻译模型 154
6.2 神经联合模型 156
6.2.1 从语言模型到联合模型 156
6.2.2 基于神经网络的联合模型 157
6.2.3 基于神经网络的联合模型的训练 159
6.2.4 联合模型解码速度的优化 160
6.3 基于序列转换的神经机器翻译 161
6.3.1 编码器-解码器框架 161
6.3.2 编码器及其构造 163
6.3.3 其他方式的编码器 164
6.3.4 解码器及其构造 167
6.4 注意力模型 168
6.4.1 基本序列转换模型的困难 169
6.4.2 注意力网络 170
6.4.3 匹配函数 172
6.4.4 局部匹配与全局匹配 173
6.5 卷积串到串模型 174
6.5.1 卷积编码器和解码器 174
6.5.2 多步注意力机制 176
6.6 完全基于注意力网络的神经翻译模型 177
6.6.1 基于注意力网络的编码器和解码器 177
6.6.2 分组(multi-head)注意力网络 179
6.6.3 位置编码(positional encoding) 180
6.6.4 自注意力网络性能分析 181
6.7 参数正则化 182
6.7.1 L1/L2正则化 182
6.7.2 maxout和dropout正则化 183
6.8 神经机器翻译解码 186
6.8.1 贪心搜索(greedy search) 186
6.8.2 束搜索(beam search) 187
6.8.3 集合解码(ensemble decoding) 188
6.9 神经机器翻译模型的训练 189
6.10 扩展阅读 191
6.11 本章小结 192
参考文献 193
第七章 前沿课题 196
7.1 基于句法的神经机器翻译 197
7.2 并行化训练 199
7.2.1 数据并行化 199
7.2.2 模型并行化 203
7.3 神经机器翻译的快速解码技术 204
7.3.1 网络预计算 204
7.3.2 参数的量化 205
7.3.3 受限词表优化 205
7.4 注意力模型的改进 206
7.4.1 覆盖度和能产度 206
7.4.2 循环注意力网络 209
7.5 神经机器翻译的可伸缩性 210
7.5.1 近似softmax函数 210
7.5.2 未登录词处理 211
7.5.3 基于词根分解的开放词汇表 211
7.6 单语数据在神经机器翻译中的应用 213
7.6.1 独立的神经语言模型 213
7.6.2 往返翻译(back translation) 215
7.6.3 联合训练(joint training) 215
7.6.4 强化学习在神经机器翻译中的应用 216
7.6.5 生成对抗网络 218
7.7 扩展阅读 218
7.8 本章小结 219
参考文献 219