《面向非结构化文本的知识发现基于英汉双语平行语料库的句法级知识挖掘和抽取研究》PDF下载

购买积分：10 如何计算积分？
作　　者：王东波编
出版社：北京：中国社会科学出版社
出版年份：2013
ISBN：9787516126035
页数：220 页

图书介绍：本书基于英汉双语平行语料库、宾州英汉双语树库和清华汉语树库，首次揭示和验证了英汉双语词汇句法功能分布复杂度呈现洛特卡现象的规律。在揭示该规律的过程中，不仅得到了英汉两种语言中词汇的句法功能分布，而且获取了英汉两种词汇在句法上的歧义分布状态，并结合齐夫定律给出了英汉两种词汇在句法上的平均歧义值。以英汉双语树库中已标注英汉双语介宾短语结构为数据资源，构建了英汉双语介宾短语结构知识抽取的模型并完成了基于英汉双语平行语料库的介宾短语结构知识抽取。在构建模型的过程中，统计了英汉双语介宾短语结构的内部和外部特征，并对比了条件随机场的复杂特征模板和添加特征模板的性能，根据具体实验确定了所构建模型的的特征模板。在已有聚类算法的基础上，结合英汉双语人文社会科学专门平行语料，从中进行了类别知识挖掘的实验。通过对汉语、英语和英汉双语的词汇级知识的聚类，确定了英汉双语词汇特征的性能优于单语，同时通过对比词汇和词汇与词性组合的聚类性能，根据具体的实验数据和结合相应的分析，确定了词汇与词性的组合是本研究挖掘类别知识的基本组合模式，并进一步确定了其中的“名词+形容词+动词”为类别知识挖掘的特征组合。

点击购买此书全本PDF电子书

第一章引言 1

一课题提出 1

二研究意义 2

三研究方法 4

四研究技术路线 5

五研究创新点 7

六本书结构和所用资源 8

第二章相关研究综述 10

一面向网络获取相关英汉双语平行语料的概述 10

二词汇句法功能分布的相关研究概况 23

三短语结构知识抽取的相关研究综述 33

四类别知识挖掘的相关研究 41

第三章面向网络的英汉双语平行语料库自动构建 48

一确定获取语料网站和制定抓取词汇底表 48

二网页的抓取和英汉双语平行语料的抽取 53

第四章词汇句法功能分布复杂度呈现规律的知识挖掘 64

一词汇句法功能分布复杂度统计数据源简介和句法结构调整 64

二词汇句法功能分布复杂度的获取 81

三词汇句法功能分布复杂度的洛特卡现象揭示 96

第五章基于英汉双语平行语料库的短语结构知识抽取——以介宾短语结构为例 114

一英汉双语介宾短语结构句法特征统计分析 115

二有关介宾短语结构知识抽取模型构建的相关介绍和预处理 135

三介宾短语结构知识抽取模型的确定和英汉双语介宾短语结构知识的抽取 147

第六章基于英汉双语平行语料库的复杂短语级类别知识挖掘 152

一面向英汉双语专门复杂短语平行语料的聚类和词干或词形算法确定 152

二语料的预处理和相关统计 157

三面向英汉双语复杂短语平行语料的词性选择 166

四基于英汉双语复杂短语平行语料的类别知识挖掘 171

结语 181

参考文献 183

附录1宾州大学英语树库的词性标记 199

附录2宾州大学汉语树库的词性标记 200

附录3清华大学树库词性标记 201

附录4汉语自身特征模板 203

附录5英语自身特征模板 205

附录6汉语添加特征模板 207

附录7英语添加特征模板 210

附录8中国科学院和北京大学核心词性标注集 213

附录9BNC统计语料样例 214

后记 217

《面向非结构化文本的知识发现 基于英汉双语平行语料库的句法级知识挖掘和抽取研究》PDF下载

《面向非结构化文本的知识发现基于英汉双语平行语料库的句法级知识挖掘和抽取研究》PDF下载