第一章 引论 1
第一节 本研究提出的背景 1
一 术语定义自动抽取的必要性 1
二 术语定义的聚类的意义 6
三 术语识别的意义 7
第二节 国内外研究现状 7
一 术语定义抽取的研究现状 7
二 句子聚类的国内外研究 9
三 术语识别的研究现状 11
第三节 术语学介绍 15
一 什么是术语学 15
二 术语学的发展简介 16
三 术语学的主要流派 16
四 我国的术语学研究 17
五 术语数据库 19
六 术语概念的唯一性与术语定义的多样性 22
七 术语与普通词语 25
八 术语的跨语言借用 30
九 新术语与旧术语在定义出现概率上的区别 35
十 术语的语缀 36
十一 一些基本概念 39
第四节 术语与术语定义的界定 42
一 术语的界定 42
二 术语定义的界定 47
第二章 术语定义的抽取研究 51
第一节 候选术语定义的规则匹配 51
一 文本下载 51
二 文本的预处理 52
三 文本的分词 53
四 候选术语定义的模板匹配 54
第二节 基于统计方法的术语定义抽取 62
一 词语的定义隶属度 63
二 句子的定义隶属度 67
三 句子的定义隶属度实验结果 67
第三节 向量空间距离计算 69
一 向量空间模型介绍 69
二 向量空间模型的引用 71
三 向量空间模型实验结果示例 72
第四节 隶属度计算和向量空间模型的结合 74
第五节 术语定义抽取系统结构与实验结果 75
第六节 实验结果评价 77
一 网络文本结构的多样性因素 77
二 语言表达形式的多样性因素 80
三 分词的因素 82
四 网络文本的可靠性因素 83
五 搜索引擎准确率的因素 84
六 算法的因素 84
第七节 术语定义形式的多样性 85
一 传统意义上的定义形式 85
二 下定义的要求 86
三 术语定义形式的多样性 89
第八节 本章小结 91
第三章 术语定义的聚类研究 93
第一节 术语定义聚类的必要性 93
第二节 聚类综述 96
一 聚类与聚类分析 96
二 分类与聚类 97
三 硬聚类和软聚类 97
四 层级聚类与非层级聚类 98
第三节 本研究采用的聚类方法 99
一 聚类步骤 99
二 相似度的界定和属性的选取 99
三 《知网》介绍 100
第四节 术语定义的领域聚类 107
一 句子相似度计算 107
二 词语的相似度计算 108
三 术语定义领域聚类的停用词表的建立 112
四 聚类特征的选取 112
第五节 术语定义聚类的结果及分析 115
一 领域聚类的判定复杂性 115
二 聚类相似度阈值的设定 116
三 《知网》知识库在领域聚类中的优点与局限性 116
四 聚类结果的错误分析 119
第四章 术语自动识别研究 122
第一节 术语缺乏位置信息 122
第二节 术语的抽取 124
一 术语的语言学特征 124
二 术语的粗抽取 124
三 术语边界的确定 126
四 术语的词性过滤 129
五 术语词性序列的统计 133
第三节 候选术语的统计特征 136
一 术语的用词长度特征 136
二 候选术语的长度与词频计算 139
三 候选术语的最后得分 141
第四节 过滤词表的构建 143
一 术语识别过滤词表构建的必要性 143
二 过滤词表的构建 145
第五节 术语识别系统结构与实验结果 145
第六节 实验结果分析 146
一 定义匹配模板的局限性 146
二 句子定义隶属度过低 147
三 其他情况 148
第七节 本章小结 149
第五章 结束语 150
附录 156
附录一 《人民日报》用词与术语定义用词对比 156
附录二 词语的定义隶属度 162
附录三 术语定义抽取的分步骤结果示例 164
附录四 术语的词性序列 168
附录五 术语抽取结果 169
附录六 术语定义聚类的部分结果 171
附录七 术语定义聚类程序示例 179
参考文献 184
致谢 192