第1章 统计机器翻译初步 1
1.1 背景 1
1.2 机器翻译的评价 3
1.2.1 基于编辑距离的方法 4
1.2.2 基于n元文法的方法 5
1.2.3 召回率的重要性 6
1.2.4 使用句法的方法 6
1.2.5 评价方法的评价与融合 7
1.2.6 统计显著性检验 7
1.3 基于词的机器翻译 7
1.3.1 模型1、模型2和隐马尔可夫模型 8
1.3.2 模型3、模型4和模型5 9
1.3.3 搜索 9
1.3.4 现状 10
1.4 语言模型 10
1.4.1 n元文法模型和平滑技术 11
1.4.2 最大熵模型 13
1.4.3 若干最新研究趋势 14
1.5 基于短语的机器翻译 16
1.5.1 对数线性模型 17
1.5.2 基于短语的翻译模型 17
1.5.3 最小错误率训练 19
1.5.4 搜索 20
1.5.5 重打分 22
1.5.6 现状 23
1.6 基于句法的统计机器翻译 23
1.6.1 无需句法分析的方法 24
1.6.2 目标语言端进行句法分析 25
1.6.3 源语言端进行句法分析 25
1.6.4 源语言端和目标语言端都进行句法分析 26
1.7 其他一些重要方向 27
1.7.1 因子化模型 27
1.7.2 模型自适应 27
1.7.3 系统融合 28
1.7.4 用于机器翻译的核方法 28
1.8 用于统计机器翻译的机器学习 28
1.8.1 翻译作为一个学习问题 29
1.8.2 使用不精确损失函数的学习 30
1.8.3 用于统计机器翻译的端到端学习 31
1.9 结论 32
1.10 附录 32
第一部分:使能技术 35
第2章 挖掘专利构建平行语料库 35
2.1 引言 35
2.2 相关工作 36
2.3 资源 37
2.4 对齐过程 38
2.4.1 句子对齐打分 38
2.4.2 降低句对齐中的噪声 40
2.5 专利平行语料库的数据统计 41
2.5.1 全集和源数据集的比较 41
2.5.2 基本的统计数据 42
2.5.3 关于机器翻译的统计数据 43
2.6 机器翻译实验 44
2.6.1 机器翻译系统 44
2.6.2 比较重排序限制 45
2.6.3 跨板块的机器翻译实验 46
2.6.4 对原始对齐数据的基于任务的评估 49
2.7 结论 51
第3章 多语言名称词典的自动创建 52
3.1 引言和动机 52
3.1.1 内容 53
3.1.2 专有名称和机器翻译 54
3.1.3 多语种名称实体词典与其他文本分析应用的相关性 54
3.1.4 存在名称变体的原因 55
3.2 相关工作 57
3.2.1 现有的名称词典或建立词典的相关探索 57
3.2.2 命名实体识别 58
3.2.3 名称变体的匹配 59
3.3 新名称的多语言识别 60
3.3.1 背景:多语言的新闻数据 60
3.3.2 一个允许多语言的轻量级识别过程 61
3.3.3 用维基百科扩充名称数据库 62
3.4 查找已知名称和其形态变体 62
3.4.1 处理词形变化 62
3.4.2 查找过程 63
3.5 人名识别的评价 65
3.6 名称变体的识别和合并 66
3.6.1 非罗马字符构成名称的音译 66
3.6.2 名称变体的“标准化” 67
3.6.3 (标准化)名称变体的近似匹配 68
3.7 总结与展望 69
第4章 多语语料库中命名实体的音译和发现 71
4.1 引言 71
4.2 前人工作 73
4.3 协同排序:命名实体发现的一个算法 74
4.3.1 时间序列生成和匹配 76
4.3.2 音译模型 76
4.4 实验性研究 77
4.4.1 命名实体发现 78
4.4.2 初始例子集合规模 81
4.4.3 时间序列打分函数的比较 81
4.5 结论 82
4.6 未来工作 82
第5章 基于多预处理机制的统计词对齐融合 84
5.1 引言 84
5.2 相关工作 84
5.3 阿拉伯语的预处理机制 85
5.4 对齐的预处理机制 86
5.4.1 Giza +++对齐 86
5.4.2 对齐重映射 87
5.5 对齐融合 87
5.6 评价 89
5.6.1 实验数据和评价指标 89
5.6.2 对齐重映射的贡献 90
5.6.3 融合特征的贡献 91
5.6.4 每个单一特征的作用 91
5.6.5 对齐合并实验 92
5.6.6 测试集评估 93
5.6.7 对齐规则分析 94
5.6.8 错误分析 95
5.7 后记:机器翻译和词对齐的改进 96
5.7.1 实验设置 97
5.7.2 结果 97
5.8 结论 99
第6章 用于判别式语言建模的语言学增强的词序列核 100
6.1 动机 100
6.2 增加语言学知识的词序列核方法 101
6.2.1 词序列核方法 101
6.2.2 因子化表示方法和核组合 103
6.2.3 因子化的核 103
6.2.4 实例说明 105
6.2.5 有理数核的解释 106
6.3 实验验证 107
6.3.1 各个因子上的核 108
6.3.2 因子的整合 109
6.3.3 与n元模型的比较 111
6.4 结论和未来的工作 113
6.5 附录 114
第二部分:机器翻译 119
第7章 走向树结构翻译模型的纯粹判别式训练 119
7.1 引言 119
7.2 相关工作 120
7.3 学习方法 121
7.3.1 问题表征 122
7.3.2 目标函数 122
7.3.3 风险最小化 123
7.4 实验 127
7.4.1 数据 127
7.4.2 词转录 128
7.4.3 词包转录 131
7.4.4 树转录 133
7.5 结论 135
第8章 大规模统计机器翻译重排序 137
8.1 引言 137
8.2 背景 138
8.3 相关工作 138
8.4 我们的方法 140
8.5 实验1:汉译英系统的重排序 141
8.5.1 重排序器的训练 142
8.5.2 实验结果 142
8.6 实验2:法译英系统的重排序 145
8.6.1 实验结果 146
8.7 讨论 149
8.8 结论 150
8.9 附录 150
第9章 基于核的机器翻译 155
9.1 引言 155
9.2 统计机器翻译中的回归模型 156
9.2.1 岭回归 156
9.2.2 n元语法字符串核 157
9.2.3 大规模训练 158
9.2.4 基于检索的稀疏近似法 158
9.3 解码 160
9.3.1 原像问题 160
9.3.2 柱搜索 160
9.3.3 复杂性分析 161
9.4 实验 162
9.4.1 语料 162
9.4.2 系统配置 163
9.4.3 岭回归实验 163
9.4.4 稀疏近似实验 165
9.4.5 搜索错误 166
9.5 进一步讨论 166
9.5.1 语言模型 166
9.5.2 语言学知识 167
9.6 小结 167
第10章 通过全局词汇选择和句子重构实现统计机器翻译 169
10.1 简介 169
10.2 SFST训练和解码 170
10.2.1 单词对齐 170
10.2.2 双语言表示法 171
10.2.3 双语短语获取和局部重排序 172
10.2.4 SFST模型 173
10.2.5 解码 173
10.2.6 单词插入模型 174
10.2.7 全局重排序 174
10.3 词汇选择判别模型 175
10.3.1 连续词汇选择模型 176
10.3.2 词袋词汇选择模型 177
10.4 选择分类器 177
10.4.1 多元与二元分类器对比 178
10.4.2 几何与概率解释 178
10.4.3 L1与L2正则化 179
10.5 数据和实验 180
10.5.1 联合国和英国国会议事录语料 182
10.6 讨论 183
10.7 结论 184
第11章 统计机器翻译的判别式短语选择 185
11.1 引言 185
11.2 专用词语选择方法 187
11.3 判别式短语翻译 188
11.3.1 问题的设定 189
11.3.2 学习 189
11.3.3 特征设置 190
11.4 局部短语翻译 192
11.4.1 数据集及设置 192
11.4.2 评价 193
11.4.3 参数调整 193
11.4.4 性能比较 194
11.4.5 整体性能 195
11.5 为全局任务使用局部判别式短语翻译模型 197
11.5.1 基准系统 197
11.5.2 软集成判别式短语翻译的预测结果 198
11.5.3 设置 200
11.5.4 评价 200
11.5.5 参数调整 205
11.5.6 结果 206
11.6 结论 211
第12章 用于机器翻译的半监督学习 214
12.1 引言 214
12.2 基线机器翻译系统 215
12.3 框架 216
12.3.1 Yarowsky算法 216
12.3.2 用于统计机器翻译的半监督学习算法 218
12.3.3 过滤器函数 218
12.3.4 估计函数 219
12.3.5 评分函数 219
12.3.6 选择函数 220
12.4 实验结果 221
12.4.1 设置 221
12.4.2 汉英翻译结果 223
12.4.3 法英结果 226
12.4.4 翻译例子 228
12.5 先前工作 229
12.6 结论与展望 230
第13章 学习系统融合机器翻译系统 232
13.1 引言 232
13.2 词对齐 234
13.2.1 问题表示 234
13.2.2 词对齐估计 234
13.2.3 词汇调序 237
13.2.4 相关研究中的其他对齐方法 238
13.3 CN的生成和评分 239
13.3.1 建立CN 239
13.3.2 概率估计 241
13.3.3 带有R-best译文翻译系统融合 242
13.3.4 共识翻译的抽取 242
13.3.5 语言模型重评分 243
13.3.6 保留单词的大小写信息 244
13.3.7 系统融合的参数优化 244
13.4 实验 244
13.4.1 翻译任务及环境 244
13.4.2 评价标准 245
13.4.3 对比实验 245
13.4.4 最终结果 247
13.5 结论 248
参考文献 249
中英文术语 279