第1章 引言 1
1.1研究背景 1
1.2研究意义 3
1.3主题聚类研究中存在的问题与解决方法 5
1.4本书内容安排 8
参考文献 9
第2章 主题聚类研究概述 11
2.1主题提取研究概述 11
2.2不同对象的聚类方法研究概述 18
参考文献 23
第3章 自动标引通用评价模型研究 27
3.1自动标引结果评价概述 27
3.2一种通用的自动标引评价模型 31
3.3自动标引评价模型的应用与性能分析 41
3.4本章小结 46
参考文献 47
第4章 基于机器学习的主题提取研究 49
4.1关键词类型分析 49
4.2几个对照的标引模型 53
4.3基于CRF的关键词提取方法 55
4.4基于集成学习的自动标引方法 76
4.5基于Citation-KNN的自动赋词标引方法 82
4.6本章小结 87
参考文献 87
第5章 主题聚类中聚类对象相似度计算研究 89
5.1基于多层特征的字符串相似度模型 89
5.2基于多语境的查询式相似度计算模型 95
5.3本章小结 102
参考文献 103
第6章 基于样本加权的文本聚类研究 105
6.1基于样本加权的文本聚类算法 105
6.2基于主题聚类的主题数字图书馆 116
6.3基于主题聚类的学科热点检测 119
64本章小结 121
参考文献 122
第7章 文本聚类结果描述算法研究 124
7.1文本聚类结果描述研究概述 124
7.2聚类描述要求、形式化及评价方法 128
7.3基于机器学习的聚类描述算法 133
7.4基于DCF-DCL组合策略的聚类描述算法 140
7.5基于主题的搜索结果聚类 144
7.6本章小结 147
参考文献 147
第8章 结束语 150
8.1总结 150
8.2进一步的研究工作 151
附录1 Segtag汉语文本词性标注标记集 153
附录2 SVMlight自动标引训练集样例 155
附录3 CRF ++自动标引训练集样例 157
附录4用于自动标引的CRF ++特征模板 159
附录5测试集自动标引结果样例 160
附录6相关词提取结果样例(整合后) 162
附录7文本的引用频次与Pagerank值样例(金融类) 164
附录8文本聚类后的类簇中心向量(煤炭类) 166
附录9主题数字图书馆聚类结果导航样例 168
附录10学科热点检测结果显示(图书情报档案类) 169
附录11 SVMlight聚类描述训练集样例 170
附录12基于主题的搜索结果聚类样例 172
索引 173