第一章 引言 1
一 课题提出 1
二 研究意义 2
三 研究方法 4
四 研究技术路线 5
五 研究创新点 7
六 本书结构和所用资源 8
第二章 相关研究综述 10
一 面向网络获取相关英汉双语平行语料的概述 10
二 词汇句法功能分布的相关研究概况 23
三 短语结构知识抽取的相关研究综述 33
四 类别知识挖掘的相关研究 41
第三章 面向网络的英汉双语平行语料库自动构建 48
一 确定获取语料网站和制定抓取词汇底表 48
二 网页的抓取和英汉双语平行语料的抽取 53
第四章 词汇句法功能分布复杂度呈现规律的知识挖掘 64
一 词汇句法功能分布复杂度统计数据源简介和句法结构调整 64
二 词汇句法功能分布复杂度的获取 81
三 词汇句法功能分布复杂度的洛特卡现象揭示 96
第五章 基于英汉双语平行语料库的短语结构知识抽取——以介宾短语结构为例 114
一 英汉双语介宾短语结构句法特征统计分析 115
二 有关介宾短语结构知识抽取模型构建的相关介绍和预处理 135
三 介宾短语结构知识抽取模型的确定和英汉双语介宾短语结构知识的抽取 147
第六章 基于英汉双语平行语料库的复杂短语级类别知识挖掘 152
一 面向英汉双语专门复杂短语平行语料的聚类和词干或词形算法确定 152
二 语料的预处理和相关统计 157
三 面向英汉双语复杂短语平行语料的词性选择 166
四 基于英汉双语复杂短语平行语料的类别知识挖掘 171
结语 181
参考文献 183
附录1宾州大学英语树库的词性标记 199
附录2宾州大学汉语树库的词性标记 200
附录3清华大学树库词性标记 201
附录4汉语自身特征模板 203
附录5英语自身特征模板 205
附录6汉语添加特征模板 207
附录7英语添加特征模板 210
附录8中国科学院和北京大学核心词性标注集 213
附录9BNC统计语料样例 214
后记 217