当前位置:首页 > 文化科学教育体育
海量网络学术文献自动分类研究
海量网络学术文献自动分类研究

海量网络学术文献自动分类研究PDF电子书下载

文化科学教育体育

  • 电子书积分:10 积分如何计算积分?
  • 作 者:王效岳等著
  • 出 版 社:北京:人民出版社
  • 出版年份:2015
  • ISBN:9787010148472
  • 页数:245 页
图书介绍:本书针对文本分类方法在发展过程中出现的问题,围绕“本体及其在文本分类中的应用”和“海量网络学术文献自动分类”两个方面展开探讨。深入研究了海量网络学术文献处理技术,比较分析了适合网络文献自动获取及并行处理的工具;设计了基于Heritrix与Hadoop平台的海量网络学术文献获取及并行处理模型和基于WordNet与SUMO本体集成的语义驱动自动文档分类模型;梳理了本体以及本体集成理论、方法和工具;开发了海量网络学术文献并行获取和自动分类原型系统。
《海量网络学术文献自动分类研究》目录

绪论 1

第一章 网络爬虫 7

第一节 网络爬虫 7

一、开源网络爬虫工具 7

二、爬虫工具比较分析 15

第二节 Hadoop平台 18

一、Hadoop与其他系统的比较 18

二、Hadoop项目及结构 20

三、Hadoop分布式文件系统 24

四、MapReduce编程模型 31

五、Hadoop平台搭建 38

第二章 海量网络学术文献获取及并行处理模型 40

第一节 网络学术文献的主要来源及常用文件格式 40

一、网络学术文献的主要来源及特点 40

二、网络学术文献的常用文件格式 42

第二节 网络学术文献自动获取实验 44

一、实验环境 44

二、实验平台搭建 44

第三节 网络学术文献资源获取 50

一、网络学术文献获取方案 50

二、种子站点的选择 51

三、抓取任务的配置 53

四、文件类型和大小过滤 54

五、网络学术文献获取实验结果 56

第四节 网络学术文献资源判定 58

第五节 网络学术文献并行处理 64

一、数据预处理 64

二、并行处理 65

第六节 MapReduce任务优化 70

一、任务调度 70

二、任务数量 70

三、Combine函数 72

四、文件压缩 72

五、重用JVM 73

六、网络学术文献并行处理模块实验结果 74

第三章 本体集成 80

第一节 本体研究 80

一、本体概念 80

二、本体基本构成要素 81

三、本体类型 81

四、本体表示语言 82

第二节 本体库研究 83

一、国内外主要本体库 83

二、本体库比较分析 98

第三节 本体集成基本过程 106

第四节 本体集成工具 110

一、工具介绍 110

二、工具比较与分析 114

第五节 本体集成方法 116

一、基于形式概念分析(FCA)的本体集成方法 116

二、基于范畴论的本体集成方法 119

三、基于RDFS图闭包的本体集成方法 121

第四章 基于语义驱动文本自动分类研究 123

第一节 文档自动分类基本理论 123

一、文档自动分类基本概念 123

二、文档自动分类基本流程 124

三、文档自动分类性能评价指标 133

第二节 基于语义驱动文档自动分类概念 135

第三节 基于语义驱动文档自动分类实现基础 135

第四节 基于语义驱动文档自动分类方法模型 137

一、词向量空间构建 137

二、语义向量空间构建 138

第五章 基于本体集成的文档语义分类模型 144

第一节 SUMO和WordNet本体库概述 144

一、WordNet本体库 144

二、SUMO本体库 146

第二节 WordNet与SUMO本体库映射机制研究 149

一、映射动机 149

二、映射模型 151

三、映射实例 155

四、映射效果及应用分析 160

第三节 基于WordNet与SUMO本体集成文档语义分类模型设计与实现 163

一、实验平台构建 164

二、实验数据集及方法 165

三、集成本体库构建 166

四、词向量空间到概念向量空间的映射 168

五、概念向量空间通用化 171

六、分类模型训练与测试过程描述 173

七、实验评估指标 180

八、实验及结果分析 180

第六章 海量网络学术文献自动分类系统 184

第一节 海量网络学术文献自动分类系统 184

一、开发环境 185

二、海量网络学术文献自动获取模块 185

三、海量网络学术文献词—文档矩阵处理模块 187

四、本体集成模块 189

五、基于语义驱动的分类模块 190

第二节 海量网络学术文献自动分类系统实现 192

一、系统主要技术及标准 192

二、系统功能 193

第七章 总结及展望 196

第一节 总结 196

第二节 展望 198

附录A 200

附录B 205

附录C 217

附录D 223

参考文献 229

索引 240

后记 242

返回顶部