《现代汉语词语级歧义自动消解研究》PDF下载

  • 购买积分:11 如何计算积分?
  • 作  者:曲维光著
  • 出 版 社:北京:科学出版社
  • 出版年份:2008
  • ISBN:9787030236463
  • 页数:255 页
图书介绍:本书主要对现代汉语中词语级歧义消解进行研究。在对国内外相关文献分析整理的基础上,提出广义搭配理论,认为句子的意义是由构成句子的每个词语,按照特定的语序排列而成的。人们进行词语消歧时也利用这些上下文语境中的每个词语。本书提出相对词频的概念,利用相对词频作为对广义搭配词语相对词频的度量实验证明该方法的有效性。本书可供计算语言学、自然语言处理研究者使用,对相关的机器翻译、信息检索、文本分类、自动文摘等领域的研究者有参考价值。也可作为计算机专业计算语言学专业相关方向研究生的教材。

绪论 1

1 自然语言处理的根本问题 1

2 词语搭配问题的研究 5

3 本书的主要研究内容 9

第1章 词语组配的研究现状 13

1.1 汉语词语组配及其性质 13

1.2 国外词语搭配研究现状 21

1.3 国内词语搭配研究现状 22

第2章 词语搭配的自动抽取研究 27

2.1 词语搭配的抽取方法 28

2.2 搭配抽取框架的建立 39

2.3 实验及其结果 41

第3章 广义组配理论 45

3.1 广义组配理论的提出 46

3.2 语境的可计算性 47

第4章 语境计算模型RFR_SUM 55

4.1 相对词频比RFR 57

4.2 基本RFR_SUM模型 64

第5章 RFR_SUM模型在分词消歧中的应用 67

5.1 RFR_SUM模型应用于组合型消歧 67

5.2 RFR_SUM模型应用于交集型消歧 76

第6章 兼类词与多音词的消歧 87

6.1 RFR_SUM模型在兼类词消解中的应用 87

6.2 基于RFR_SUM模型的多音词的消歧 97

第7章 词义消歧研究 102

7.1 RFR_SUM模型在词义消歧中的应用 102

7.2 无需词性标注语料的词义消歧实验 111

第8章 词义消歧的二元模型及集成研究 115

8.1 BI_RFR_SUM模型 116

8.1.1 二元搭配强度和二元相对词频比(BI_RFR) 116

8.1.2 BI_RFR_SUM模型 118

8.1.3 实验及结果 120

8.2 UNI_RFR_SUM与BI_RFR_SUM的集成 124

8.3 多分类问题研究 126

第9章 超大规模语料精加工技术研究 135

9.1 问题的提出 135

9.2 现有标注软件的性能指标的计量研究 138

9.2.1 ICTCLAS系统标注结果分析 140

9.2.2 系统改进探讨 144

9.3 语料精加工的方法 147

9.3.1 词表校对法 147

9.3.2 基于简单词语组合特性的方法 149

9.3.3 基于多元组比对的方法 149

9.3.4 基于RFR_SUM模型的方法 152

9.4 初步实验结果 158

第10章 隐喻识别研究 159

10.1 隐喻研究现状 159

10.2 隐喻研究的意义 166

10.3 隐喻研究的内容和方案 167

10.4 初步的研究成果 171

结语 174

1 本研究完成的主要工作 174

2 进一步研究计划 176

主要参考文献 179

附录1 北京大学汉语文本词性标注集 189

附录2 组合型切分歧义强弱势比例 191

附录3 “从小/学”训练用例句 193

附录4 “应/用于”训练用例句 197

附录5 “应用于”测试集 203

附录6 “从小学”测试集 211

附录7 “科学”词性标注开放测试中标注错误句子 214

附录8 “黄色”词义消歧中错误句子 216

附录9 “黄金”词义消歧中错误句子 224

附录10 经改进后,“黄金”词义消歧中错误句子 235

附录11 经改进后,“黄色”词义消歧中错误句子 238

附录12 “黄色”词义开放测试错误句子 240

附录13 “黄金”词义开放测试错误句子 241

附录14 “分子”分类错误的句子 243

附录15 “材料”分类错误的句子 244

附录16 “着/u”和“着/v”校对出错误的句子 246

附录17 “本书/r”和“本/q书/n”校对出错误的句子 251

后记 253