第1章 平行语料句子对齐方法研究概述 1
1.1 句子对齐的重要性 1
1.2 常见的句子对齐方法 2
1.2.1 基于长度的句子对齐方法 2
1.2.2 基于词汇互译信息的句子对齐方法 7
1.2.3 长度和词汇互译信息混合的句子对齐方法 10
1.3 二分图模型在双语句子对齐中的应用 12
1.4 小结 14
第2章 英汉军事语料句子对齐方法 15
2.1 句子对齐英汉军事语料的重要性 15
2.2 对英汉军事语料句子对齐方法的思考 18
2.3 拟采用的句子对齐方法 23
2.4 小结 25
第3章 相关语言知识库的建设 26
3.1 语言知识库的建设目的、原始资源及作用 26
3.1.1 语言知识库建设目的 26
3.1.2 语言知识库原始资源 27
3.1.3 语言知识库作用 28
3.2 相关语言知识库建设的总体设计 29
3.2.1 根据句子对齐工作流程确定相关语言知识库 29
3.2.2 根据相关语言知识库架构选择原始资源 30
3.3 相关语言知识库的建设过程 32
3.3.1 数据库的选择 32
3.3.2 基本数据的准备及相关处理 33
3.3.3 知识库的构建 37
3.4 小结 45
第4章 文本预处理 47
4.1 英汉平行文本拆分及段落对齐 47
4.1.1 英汉平行文本拆分 47
4.1.2 计算机辅助段落对齐 50
4.2 英语、汉语句子边界识别 52
4.2.1 自主实现英语句子边界识别的必要性 53
4.2.2 英语句子边界识别研究概况 54
4.2.3 英语句子边界识别方法设计实现 56
4.2.4 英语句子边界识别实验及结果分析 61
4.3 英语形态还原 65
4.3.1 形态还原目的 65
4.3.2 基于单词表的形态还原方法 67
4.3.3 形态变化还原规则 69
4.3.4 其他词法现象的处理 72
4.4 汉语分词 72
4.4.1 汉语分词的目的及基本流程 72
4.4.2 汉语分词方法的选择 77
4.4.3 基于字符串匹配的分词方法的扫描方式的选择 78
4.4.4 汉语分词词典的设计及逆向最大匹配分词算法 79
4.5 小结 84
第5章 顶点最大权重配对句子对齐算法 85
5.1 顶点最大权重配对句子对齐处理流程 85
5.2 句对相关性分值的计算 86
5.3 双语句子对齐数学模型 89
5.3.1 二分图的定义 89
5.3.2 二分图的顶点配对、权重 90
5.3.3 临时锚点和二分图的顶点最大权重配对 90
5.3.4 顶点最大权重配对与最大权重匹配 91
5.4 句子对齐的求解要求 92
5.5 二分图顶点最大权重配对模型下的句子对齐处理 93
5.5.1 不需要修正的句子对齐实例 94
5.5.2 需要修正的句子对齐实例 101
5.5.3 句子对齐程序对二分图全局顶点最大权重配对结果的调整 103
5.6 小结 109
第6章 英汉句子对齐平台设计实现及实验 111
6.1 英汉平行语料句子对齐处理平台的设计和实现 111
6.1.1 调入英汉平行文本 111
6.1.2 英汉平行文本段落对齐处理 112
6.1.3 句子对齐处理 114
6.1.4 英汉词汇互译信息库管理 116
6.2 实验设计和实验结果分析 117
6.2.1 实验设计 117
6.2.2 句子对齐评价方法 119
6.2.3 实验过程及主要数据 119
6.2.4 错误分析及改进措施 136
6.2.5 实验及错误分析总结 141
6.3 小结 142
第7章 总结和展望 144
7.1 研究取得的主要成果 144
7.2 展望 146
参考文献 148