《面向非结构化文本的知识发现 基于英汉双语平行语料库的句法级知识挖掘和抽取研究》PDF下载

  • 购买积分:10 如何计算积分?
  • 作  者:王东波编
  • 出 版 社:北京:中国社会科学出版社
  • 出版年份:2013
  • ISBN:9787516126035
  • 页数:220 页
图书介绍:本书基于英汉双语平行语料库、宾州英汉双语树库和清华汉语树库,首次揭示和验证了英汉双语词汇句法功能分布复杂度呈现洛特卡现象的规律。在揭示该规律的过程中,不仅得到了英汉两种语言中词汇的句法功能分布,而且获取了英汉两种词汇在句法上的歧义分布状态,并结合齐夫定律给出了英汉两种词汇在句法上的平均歧义值。以英汉双语树库中已标注英汉双语介宾短语结构为数据资源,构建了英汉双语介宾短语结构知识抽取的模型并完成了基于英汉双语平行语料库的介宾短语结构知识抽取。在构建模型的过程中,统计了英汉双语介宾短语结构的内部和外部特征,并对比了条件随机场的复杂特征模板和添加特征模板的性能,根据具体实验确定了所构建模型的的特征模板。在已有聚类算法的基础上,结合英汉双语人文社会科学专门平行语料,从中进行了类别知识挖掘的实验。通过对汉语、英语和英汉双语的词汇级知识的聚类,确定了英汉双语词汇特征的性能优于单语,同时通过对比词汇和词汇与词性组合的聚类性能,根据具体的实验数据和结合相应的分析,确定了词汇与词性的组合是本研究挖掘类别知识的基本组合模式,并进一步确定了其中的“名词+形容词+动词”为类别知识挖掘的特征组合。

第一章 引言 1

一 课题提出 1

二 研究意义 2

三 研究方法 4

四 研究技术路线 5

五 研究创新点 7

六 本书结构和所用资源 8

第二章 相关研究综述 10

一 面向网络获取相关英汉双语平行语料的概述 10

二 词汇句法功能分布的相关研究概况 23

三 短语结构知识抽取的相关研究综述 33

四 类别知识挖掘的相关研究 41

第三章 面向网络的英汉双语平行语料库自动构建 48

一 确定获取语料网站和制定抓取词汇底表 48

二 网页的抓取和英汉双语平行语料的抽取 53

第四章 词汇句法功能分布复杂度呈现规律的知识挖掘 64

一 词汇句法功能分布复杂度统计数据源简介和句法结构调整 64

二 词汇句法功能分布复杂度的获取 81

三 词汇句法功能分布复杂度的洛特卡现象揭示 96

第五章 基于英汉双语平行语料库的短语结构知识抽取——以介宾短语结构为例 114

一 英汉双语介宾短语结构句法特征统计分析 115

二 有关介宾短语结构知识抽取模型构建的相关介绍和预处理 135

三 介宾短语结构知识抽取模型的确定和英汉双语介宾短语结构知识的抽取 147

第六章 基于英汉双语平行语料库的复杂短语级类别知识挖掘 152

一 面向英汉双语专门复杂短语平行语料的聚类和词干或词形算法确定 152

二 语料的预处理和相关统计 157

三 面向英汉双语复杂短语平行语料的词性选择 166

四 基于英汉双语复杂短语平行语料的类别知识挖掘 171

结语 181

参考文献 183

附录1宾州大学英语树库的词性标记 199

附录2宾州大学汉语树库的词性标记 200

附录3清华大学树库词性标记 201

附录4汉语自身特征模板 203

附录5英语自身特征模板 205

附录6汉语添加特征模板 207

附录7英语添加特征模板 210

附录8中国科学院和北京大学核心词性标注集 213

附录9BNC统计语料样例 214

后记 217