《基于知识本体的俄汉可比语料库建设与应用研究》PDF下载

  • 购买积分:10 如何计算积分?
  • 作  者:原伟著
  • 出 版 社:世界图书出版广东有限公司
  • 出版年份:2019
  • ISBN:9787519261450
  • 页数:235 页
图书介绍:本书是一本个人学术专著。可比语料库作为近年来语料库研究的热点方向之一,可广泛应用于语言学研究和自然语言处理领域。本体是一种基于语义网技术的知识表示方法,它与可比语料库的融合式研究是对可比语料获取、组织和应用方法的一次革新,将更好地发挥可比语料库的效能并扩展其应用领域。经过前期调查分析,国内外鲜有俄汉可比语料库相关研究,未见基于本体的俄汉可比语料库相关成果。本研究首先在理论层面分析了可比语料库研究的现存问题,提出将本体引入可比语料库研究的思路,并以此为基础提出了基于本体的可比语料库理论构想。随后在实践层面将该理论构想运用到了面向俄汉可比语料库的多语言复合型本体构建、基于该本体的俄汉可比语料获取、语料库构建和语料库应用等核心问题的研究中。

绪论 1

0.1 研究背景 2

0.2 研究意义 4

0.3 研究现状 5

0.4 研究内容 8

0.5 研究方法 9

0.6 创新点和难点 10

0.7 研究架构 11

第一章 可比语料库研究综论 13

1.0 本章引言 14

1.1 可比与类比的术语界定 15

1.2 定义重构与分类研究 18

1.2.1 定义的分析与重构 18

1.2.2 分类的标准与方法 22

1.3 可比语料库构建方法 24

1.3.1 基于现存语料库的构建方法 24

1.3.2 基于网络资源的构建方法 25

1.3.2.1 基于新闻网站的可比语料库构建 25

1.3.2.2 基于维基百科的可比语料库构建 27

1.3.2.3 基于网络的领域可比语料库构建 28

1.3.3 基于混合数据的构建方法 28

1.4 语料的可比度及其计算 30

1.4.1 单语种语料的可比度计算 30

1.4.2 多语种语料的可比度计算 31

1.5 俄语可比语料库研究现状 32

1.6 本章小结 34

第二章 基于本体的可比语料库理论构想 37

2.0 本章引言 38

2.1 本体和语料库融合式研究的理论前提 39

2.1.1 本体的定义 39

2.1.2 本体的构建方法 40

2.1.3 多语种本体的构建 44

2.1.3.1 衍生拓展法 45

2.1.3.2 中介语映射法 46

2.1.3.3 关系注释法 48

2.1.4 基于语料的本体研究 48

2.1.4.1 基于语料的概念抽取 50

2.1.4.2 基于语料的概念关系抽取 51

2.1.5 基于本体的语料库研究 52

2.2 基于本体的可比语料库理论体系 54

2.2.1 语言信息层面语料与本体的理论关系 54

2.2.2 面向单语料知识描述的理论模型 58

2.2.3 基于本体的可比语料库结构模型 60

2.2.4 面向可比语料库的本体构建问题 63

2.2.4.1 构建目标 63

2.2.4.2 构建方法 65

2.2.4.3 其他重要问题 66

2.2.5 基于本体的可比语料获取问题 67

2.2.5.1 基于本体获取领域种子词 68

2.2.5.2 基于本体获取可比语料 70

2.2.6 基于本体的可比语料库构建问题 73

2.2.7 基于本体的可比语料库应用问题 77

2.3 本章小结 78

第三章 面向俄汉可比语料库的乌克兰事件复合型本体(МОПКУС) 79

3.0 本章引言 80

3.1 МОПКУС概览与总体设计 81

3.1.1 МОПКУС的定义与结构 81

3.1.2 МОПКУС的构建目标 84

3.1.3 МОПКУС的构建方法 85

3.1.4 МОПКУС其他重要问题 88

3.2 МОПКУС领域知识类 90

3.2.1 领域知识类需求分析与结构设计 90

3.2.2 基于乌克兰事件领域语料的知识获取 92

3.2.3 МОПКУС人物子类 95

3.2.4 МОПКУС地点子类(place) 99

3.2.5 МОПКУС组织子类(organization) 102

3.2.6 МОПКУС时间子类(time) 106

3.2.7 МОПКУС客体子类(object) 108

3.2.8 МОПКУС行为子类(action) 111

3.3 МОПКУС语料描述类 113

3.3.1 语料描述类需求分析与结构设计 114

3.3.2 МОПКУС单语料描述方法 115

3.3.3 МОПКУС可比语料描述方法 116

3.3.4 МОПКУС原始语料子类(original_corpora) 118

3.3.5 МОПКУС可比语料子类(comparable_corpora) 121

3.4 МОПКУС中俄实例关联 123

3.5 本章小结 128

第四章 基于МОПКУС的俄汉可比语料获取与语料库构建 129

4.0 本章引言 130

4.1 基于МОПКУС的俄汉可比语料获取 131

4.1.1 基于МОПКУС的俄汉种子词获取 132

4.1.1.1 基于Jena的本体解析方法 132

4.1.1.2 基于本体获取种子词的程序实现 134

4.1.1.3 基于МОПКУС的种子词获取结果 135

4.1.2 基于МОПКУС的俄汉维基语料获取 139

4.1.2.1 核心问题分析与讨论 139

4.1.2.2 俄汉维基可比语料获取的方法 143

4.1.2.3 俄汉维基可比语料获取的程序实现 146

4.1.2.4 维基百科语料获取结果 148

4.1.3 基于МОПКУС的俄汉新闻语料获取 149

4.1.3.1 面向新闻语料获取的种子词选取 149

4.1.3.2 新闻语料获取工具与过程 151

4.1.3.3 俄汉新闻语料获取结果 153

4.2 基于МОПКУС的俄汉可比语料库构建 155

4.2.1 МОПКУС俄汉原始语料实例的处理与导入 156

4.2.1.1 中文原始语料的处理方法 157

4.2.1.2 俄文原始语料的处理方法 159

4.2.1.3 语料处理与导入程序实现 160

4.2.1.4 中俄文语料处理与导入结果 162

4.2.2 МОПКУС俄汉可比语料实例的处理与导入 163

4.2.2.1 核心问题的分析讨论 163

4.2.2.2 可比语料实例的关系建立 166

4.2.2.3 可比语料实例的数据属性 170

4.2.2.4 俄汉跨语言相似度计算 174

4.2.2.5 可比语料实例处理导入结果 175

4.3 本章小结 177

第五章 基于МОПКУС的俄汉可比语料库应用 179

5.0 本章引言 180

5.1 应用一:语料复杂查询与语义检索系统 181

5.1.1 基于词汇的检索 181

5.1.2 基于句子的检索 185

5.1.3 跨语言语料检索 187

5.1.4 语料可比性推理 191

5.1.5 程序实现 196

5.2 应用二:基于多维特征的语料可比度评估系统 198

5.2.1 思路来源 198

5.2.2 概念定义 198

5.2.3 实施方法 199

5.2.4 具体算法 200

5.2.5 多维可比度示例 201

5.2.6 多维可视化分析 203

5.2.7 程序实现 204

5.2.8 应用优势 206

5.3 应用三:跨语言文本推荐与信息整合系统 206

5.3.1 思路来源 206

5.3.2 概念定义 207

5.3.3 实施方法 208

5.3.4 程序实现 212

5.3.5 应用优势 213

5.4 本章小结 213

结论 215

参考文献 221