《数字文献资源高维聚合模型研究》PDF下载

  • 购买积分:11 如何计算积分?
  • 作  者:牛奉高著
  • 出 版 社:北京:中国社会科学出版社
  • 出版年份:2017
  • ISBN:9787520307826
  • 页数:259 页
图书介绍:针对文本挖掘和信息检索中的文本或文献聚类与分类等问题,学术界基于VSM(向量空间模型)主要有两方面的研究,一者是文献表示模型的改进,二者是算法的改进。然而传统的算法对高维稀疏的向量聚类存在不足,一些新的算法也不尽完美,更主要的是聚类算法的效果与数据本身的特征以及信息提取和表示密切相关,特别是在信息有限的情况下,聚类算法的优势也不能得到完美发挥,相比之下,信息的挖掘、提取和文献向量表示就尤为重要。在本文仅限于元数据甚至只有关键词的前提下,文献的表示向量相比一般文本表示就表现得非常稀疏,面对这种情形聚类算法即使是“巧妇”也“难为无米之炊”,因此,本书的重点突破是文献主题语义信息的提取、度量和文献高维向量的新表示方法。基于以上问题和现象,本书以数字文献资源为对象,本着在信息资源聚合中减少对背景知识的依赖,便于推广应用的宗旨,提出了基于文献集本身或者相关领域的共现信息而实现文献聚合的共现潜在语义向量空间模型(CLSVSM)。而且通过实验证实基于CLSVSM的文献聚类表现比基于VSM和GVSM(广义向量空间模型)显著地好。

引言 1

一 研究背景和意义 2

(一)研究背景 2

(二)研究意义 8

二 国内外研究综述 10

(一)国内研究进展 11

(二)国外研究进展 14

(三)相关研究述评 18

三 研究目的、方法与创新 28

(一)研究目的与思路 28

(二)研究方法与工具 31

(三)本书的创新之处 32

第一章 数字文献资源聚合的概念与理论基础 34

一 数字文献资源的范畴 34

(一)数字化的信息资源 34

(二)数字文献资源 35

二 数字文献资源聚合的内涵与外延 36

(一)聚合的缘起 36

(二)文献资源聚合的内涵 38

(三)文献资源聚合的外延 40

三 数字文献资源聚合研究的形式和内容 46

(一)数字文献资源聚合的形式 46

(二)数字文献聚合研究内容辨析 47

四 数字文献资源聚合研究的理论基础 50

(一)文本挖掘理论 50

(二)共现理论与共现网络 51

(三)LSA与LSI理论 56

(四)FA与PA理论 57

(五)信息熵理论 58

(六)长尾理论 59

五 数字文献资源聚合的应用方法研究 60

(一)新闻聚合与自动摘要 60

(二)对检索结果的聚类 61

(三)文档管理与个性化信息服务 64

(四)改善文献分类的结果 65

六 数字文献资源基于元数据聚合的探索 65

(一)元数据是数字文献资源的特征信息 66

(二)基于元数据实现文献聚合的可行性 67

七 本章小结 68

第二章 数字文献资源的高维向量表示与语义相关性研究 70

一 数字文献资源的多元和高维特征 70

(一)文献属性的多元特征 70

(二)文献主题的高维特征 72

二 文献主题的特征选择与评价方法 73

(一)文献主题特征的选择问题 73

(二)特征子集的选取与评价 74

三 文献特征的高维表示与文献相似性测度方法 76

(一)文献特征的高维向量表示 76

(二)文献相似性与距离的测度 77

四 向量空间模型及其衍生模型 80

(一)经典VSM模型 80

(二)广义向量空间模型 83

(三)面向中文文献聚类的VSM类模型 84

五 语义向量空间模型 85

(一)基于VSM的语义相关性研究 87

(二)语义信息增强模型 88

(三)语义核与文献主题相似性 95

六 本章小结 99

第三章 共现潜在语义向量空间模型(CLSVSM) 101

一 共现潜在语义的概念 102

(一)语义与语义信息 102

(二)潜在语义与共现潜在语义 103

(三)共现潜在语义的挖掘 105

二 基于共现潜在语义的文献高维向量表示模型 106

(一)文献高维向量表示的困境 107

(二)模型提出的基础 108

(三)相关定义和记号 110

(四)CLSVSM模型的表示 113

(五)CLSVSM模型的解释 115

三 语义信息的增强与约简探讨 117

(一)语义信息的增强 117

(二)语义信息的约简 118

四 基于CLSVSM的数字文献资源聚合 119

(一)基于特征向量聚类的文献聚合步骤 119

(二)文献的相似矩阵 120

(三)文献集的相似度 121

(四)聚类算法选择 123

(五)聚类准则函数 124

(六)聚类评价方法 129

五 CLSVSM模型与VSM衍生模型的类比 132

(一)类比基于关键词相同度的VSM模型 132

(二)类比扭曲VSM模型 134

(三)类比TCABARWC模型 136

六 本章小结 137

第四章 CLSVSM模型的实验检验与评价 138

一 文献聚类实验的基本设计 139

(一)实验的目的和要求 139

(二)实验基本流程设计 140

二 文献聚类评价方法 141

(一)BF指标 141

(二)熵值、纯度和错误率 142

三 高维向量聚类工具:gCLUTO 143

四 实验文献集的来源与描述 147

(一)数据的选择和采集 147

(二)数据的整理与分析 149

(三)实验数据集的基本统计描述 156

五 文献聚类实验内容与方案 158

(一)实验内容 158

(二)实验步骤 158

(三)实验方案 159

六 文献聚类实验结果与分析 160

(一)CLSVSM模型的语义信息增强效果分析 160

(二)CLSVSM模型的聚类效果对比实验 162

(三)实验总结:CLSVSM的优势 178

七 本章小结 178

第五章 CLSVSM模型的应用与实证 181

一 CLSVSM模型的应用范围 181

二 实证准备 183

(一)实证数据的选择 183

(二)文献聚类簇数目的确定 184

三 基于CLSVSM模型的聚合实证研究 185

(一)实证Ⅰ——以概率论与数理统计学科抽样文献为例 185

(二)实证Ⅱ——以信息资源建设主题的检索文献集为例 200

四 本章小结 213

第六章 CLSVSM模型的进一步研究 214

一 共现潜在语义的不同估计量对比研究 215

(一)基于不同共现潜在语义估计量的模型构建 216

(二)基于不同共现潜在语义估计量的模型对比 217

二 CLSVSM对英文文献的适应性研究 219

(一)英文文献数据采集 219

(二)CLSVSM对中英文数据聚类的对比 219

三 共现矩阵的约简研究 221

(一)截尾共现潜在语义向量空间模型 221

(二)共现矩阵约简前后的对比 221

四 共现潜在语义核研究 223

(一)GCLSVSM 223

(二)广义模型与原模型的实验对比 224

(三)CLSVSM_K 226

五 三元共现的挖掘与利用研究 229

(一)三元共现的表示 230

(二)三元共现强度的计算 231

(三)三元CLSVSM 231

(四)三元CLSVSM与CLSVSM的比较 232

六 本章小结 233

第七章 总结与展望 237

一 总结与启示 237

二 不足与展望 241

参考文献 244

致谢 259