《英汉军事语料句子对齐研究》PDF下载

  • 购买积分:9 如何计算积分?
  • 作  者:严灿勋著
  • 出 版 社:北京:国防工业出版社
  • 出版年份:2015
  • ISBN:9787118102833
  • 页数:152 页
图书介绍:本书系统阐述了基于双语词典的二分图顶点最大权重配对句子对齐方法,其中包括句子对齐所用的双语词典的自建方法、英语句子边界识别方法、英语单词形态还原方法及利用双语词典对汉语句子进行分词的方法,解决了普通长度的英汉平行军事文本的句子对齐问题,对实现其他领域英汉平行语料句子对齐具有借鉴意义。本书可供自然语言处理领域研究人员、计算语言学研究人员、语料库建设和应用研究人员、双语词典编纂平台设计使用者、机辅翻译平台设计使用者阅读参考。

第1章 平行语料句子对齐方法研究概述 1

1.1 句子对齐的重要性 1

1.2 常见的句子对齐方法 2

1.2.1 基于长度的句子对齐方法 2

1.2.2 基于词汇互译信息的句子对齐方法 7

1.2.3 长度和词汇互译信息混合的句子对齐方法 10

1.3 二分图模型在双语句子对齐中的应用 12

1.4 小结 14

第2章 英汉军事语料句子对齐方法 15

2.1 句子对齐英汉军事语料的重要性 15

2.2 对英汉军事语料句子对齐方法的思考 18

2.3 拟采用的句子对齐方法 23

2.4 小结 25

第3章 相关语言知识库的建设 26

3.1 语言知识库的建设目的、原始资源及作用 26

3.1.1 语言知识库建设目的 26

3.1.2 语言知识库原始资源 27

3.1.3 语言知识库作用 28

3.2 相关语言知识库建设的总体设计 29

3.2.1 根据句子对齐工作流程确定相关语言知识库 29

3.2.2 根据相关语言知识库架构选择原始资源 30

3.3 相关语言知识库的建设过程 32

3.3.1 数据库的选择 32

3.3.2 基本数据的准备及相关处理 33

3.3.3 知识库的构建 37

3.4 小结 45

第4章 文本预处理 47

4.1 英汉平行文本拆分及段落对齐 47

4.1.1 英汉平行文本拆分 47

4.1.2 计算机辅助段落对齐 50

4.2 英语、汉语句子边界识别 52

4.2.1 自主实现英语句子边界识别的必要性 53

4.2.2 英语句子边界识别研究概况 54

4.2.3 英语句子边界识别方法设计实现 56

4.2.4 英语句子边界识别实验及结果分析 61

4.3 英语形态还原 65

4.3.1 形态还原目的 65

4.3.2 基于单词表的形态还原方法 67

4.3.3 形态变化还原规则 69

4.3.4 其他词法现象的处理 72

4.4 汉语分词 72

4.4.1 汉语分词的目的及基本流程 72

4.4.2 汉语分词方法的选择 77

4.4.3 基于字符串匹配的分词方法的扫描方式的选择 78

4.4.4 汉语分词词典的设计及逆向最大匹配分词算法 79

4.5 小结 84

第5章 顶点最大权重配对句子对齐算法 85

5.1 顶点最大权重配对句子对齐处理流程 85

5.2 句对相关性分值的计算 86

5.3 双语句子对齐数学模型 89

5.3.1 二分图的定义 89

5.3.2 二分图的顶点配对、权重 90

5.3.3 临时锚点和二分图的顶点最大权重配对 90

5.3.4 顶点最大权重配对与最大权重匹配 91

5.4 句子对齐的求解要求 92

5.5 二分图顶点最大权重配对模型下的句子对齐处理 93

5.5.1 不需要修正的句子对齐实例 94

5.5.2 需要修正的句子对齐实例 101

5.5.3 句子对齐程序对二分图全局顶点最大权重配对结果的调整 103

5.6 小结 109

第6章 英汉句子对齐平台设计实现及实验 111

6.1 英汉平行语料句子对齐处理平台的设计和实现 111

6.1.1 调入英汉平行文本 111

6.1.2 英汉平行文本段落对齐处理 112

6.1.3 句子对齐处理 114

6.1.4 英汉词汇互译信息库管理 116

6.2 实验设计和实验结果分析 117

6.2.1 实验设计 117

6.2.2 句子对齐评价方法 119

6.2.3 实验过程及主要数据 119

6.2.4 错误分析及改进措施 136

6.2.5 实验及错误分析总结 141

6.3 小结 142

第7章 总结和展望 144

7.1 研究取得的主要成果 144

7.2 展望 146

参考文献 148