第1章 绪论 1
1.1 研究背景及问题提出 1
1.1.1 研究背景 1
1.1.2 问题的提出 2
1.2 国内外研究概况 3
1.2.1 基于文献内容的知识发现 3
1.2.2 支持向量机 5
1.2.3 论文影响力预测 9
1.2.4 文本分类 11
1.2.5 领域框架语义网络本体构建 15
第2章 学术论文影响力预测方法 16
2.1 样本分析 16
2.2 基于支持向量机的学术论文影响力预测模型 20
2.2.1 模型参数的影响 22
2.2.2 模型的样本特征值预处理及样本非平衡敏感性 31
2.2.3 增量学习策略 33
2.2.4 样本特征选择 36
2.2.5 学科敏感性 40
2.3 与已有预测方法的比较 41
2.4 结论 42
2.5 小结 42
第3章 术语概念聚类策略 43
3.1 样本特征及其分布情况 43
3.2 共词缀词术语概念聚类策略 45
3.2.1 算法描述及实验 46
3.2.2 基于区分度的术语聚类停用词算法 51
3.3 算法有效性评价及改进 52
3.4 结论 54
3.5 小结 54
第4章 基于区分度的文本分类技术 55
4.1 基于支持向量机的单分类器多分类方法 55
4.1.1 新类别在线训练方法 57
4.1.2 基于类别区分度的特征选择算法 57
4.1.3 术语同义聚类对文本分类效果的影响 59
4.1.4 基于特征向量及句子向量的组合文本分类方法 64
4.1.5 训练样本分类可靠性分析 66
4.2 系统分类纠错方法 68
4.3 结论 70
4.4 小结 70
第5章 领域框架语义网络本体候选核心词词库构建方法 71
5.1 领域框架语义网络本体候选核心词库构建框架 71
5.2 基于领域专指度的候选核心词选择方法 72
5.2.1 领域词汇核心度 73
5.2.2 领域词汇核聚度 73
5.2.3 基于文献内容共现网络的新特征及新核心词在线学习 76
5.3 基于语素的候选核心词选择方案 78
5.3.1 领域语素核心度 78
5.3.2 领域语素核聚度 79
5.3.3 基于语素特征权重的领域新特征词判别方法 81
5.3.4 领域语素提取 82
5.4 领域框架语义网络本体核心词汇概念的层次、同位或等同关系挖掘 84
5.5 领域框架语义网络本体核心词汇概念的领域相关概念词选择 86
5.6 科技文献领域框架设计 86
5.7 结论 89
5.8 小结 89
第6章 领域框架语义网络本体例句库构建方法 90
6.1 领域框架语义网络本体候选例句库构建框架 90
6.2 科技论文领域框架语义网络本体候选例句选择方法 91
6.3 基于框架词元正则表达式的例句标注方法 92
6.4 领域框架语义网络本体语义配价模板构建方法 93
6.5 例句有效性的评价方法 95
6.6 结论 95
6.7 小结 95
第7章 领域框架语义网络本体库构建及其应用 96
7.1 基于科技论文领域核心词的框架语义网络本体库构建模式 97
7.2 导电塑料中文本体库高水平科技文献语料 97
7.3 导电塑料领域框架网络核心词汇 98
7.4 导电塑料领域框架网络例句及配价模版 100
7.5 导电塑料专利文献检索系统 104
7.5.1 常见专利文献检索系统 104
7.5.2 基于领域框架语义网络本体语义推理的文献检索系统 106
7.6 导电塑料领域框架语义网络本体库的适应性 107
7.6.1 技术路线图概念 107
7.6.2 基于技术路线图的技术子框架——以物质制备为例 108
7.7 领域本体构建框架的动态更新机制 109
7.8 小结 110
参考文献 111
附录一:高水平论文预测模型实验样本示例 123
附录二:提取当前记录的高频词近邻记录关键代码 124
附录三:特征项的区分度计算 125
附录四:类别特征向量生成算法程序 127
附录五:关键词聚类算法 132
附录六:中科院分词系统的基于SQL Server的ICTCLAS批处理程序(C#) 137
附录七:支持向量机批应用程序 140