《信息检索与智能处理》PDF下载

  • 购买积分:10 如何计算积分?
  • 作  者:高凯,仇晶,张晓明,王伟,张华平著
  • 出 版 社:北京:国防工业出版社
  • 出版年份:2014
  • ISBN:9787118090048
  • 页数:216 页
图书介绍:本书包括绪论、信息检索与处理的基本原理及技术、网络信息获取及其动态采集算法、网络信息去噪与正文提取、实体关系抽取、命名实体识别研究及其在话题跟踪中的应用、基于遗传算法的主题概念自动标引、基于主题词标引的网页分类算法、信息聚类及其实现、基于语句相似度的自动文摘、信息可视化技术及其实现、搜索引擎的设计与实现、数字图书馆的设计与实现等内容。

第1篇 背景知识 1

第1章 绪论 1

1.1 信息及其分类 1

1.2 信息检索的起源和发展 2

1.2.1 手工检索 2

1.2.2 脱机批处理检索 2

1.2.3 联机检索 3

1.2.4 光盘检索 3

1.2.5 网络信息检索 3

1.3 信息检索与其他学科的关系 4

1.4 本书主要关注的内容及知识点间的联系 5

1.5 本章小结 6

参考文献 7

第2章 信息智能处理关键技术综述 8

2.1 自然语言处理及中文分词 8

2.1.1 基于词典匹配的中文分词法 9

2.1.2 基于词频统计的无词典中文分词法 10

2.2 异构信息处理与内容表示 11

2.3 文本挖掘 11

2.4 实体关系抽取 11

2.5 命名实体识别 12

2.6 话题跟踪 13

2.7 文本分类 13

2.7.1 基于统计和分词的方法 14

2.7.2 基于向量空间模型的方法 14

2.7.3 基于知识工程的分类方法 14

2.8 文本情感分析 14

2.9 文本聚类 16

2.10 自动摘要 16

2.11 全文检索 17

2.12 语义Web与信息集成 19

2.13 大数据处理与Hadoop开源系统 20

2.13.1 Hadoop简介 20

2.13.2 HBase简介 21

2.13.3 Hive简介 21

2.13.4 Pig简介 21

2.13.5 Cassandra简介 22

2.13.6 Chukwa简介 22

2.14 本章小结 22

参考文献 22

第3章 搜索引擎与信息检索综述 27

3.1 搜索引擎概述 27

3.2 搜索引擎的发展历程 28

3.3 搜索引擎的分类 29

3.3.1 目录索引式搜索引擎 29

3.3.2 自动式搜索引擎 29

3.3.3 元搜索引擎 29

3.3.4 分布式搜索引擎 30

3.4 网络信息检索与处理的基本流程 30

3.4.1 网络信息获取 30

3.4.2 信息抽取 32

3.4.3 信息加工 33

3.4.4 信息检索与结果提供 35

3.5 开源研发工具 35

3.5.1 Lucene 35

3.5.2 Lemur 37

3.5.3 LIUS 37

3.5.4 Egothor 37

3.5.5 Xapian 37

3.5.6 Sphinx 38

3.6 信息检索评测 38

3.6.1 TREC评测 38

3.6.2 其他评测:NTCIR、CLEF、SEWM 39

3.7 信息检索模型与基本方法 39

3.7.1 布尔检索模型 40

3.7.2 概率检索模型 41

3.7.3 向量空间模型 41

3.7.4 模糊检索模型 42

3.7.5 逻辑检索模型 42

3.7.6 概念检索 43

3.7.7 案例检索 44

3.8 信息检索系统的性能评价指标 44

3.9 信息检索系统的体系结构 46

3.10 本章小结 46

参考文献 46

第2篇 信息处理 48

第4章 海量异构信息采集 48

4.1 概述 48

4.2 相关工作综述与扩展阅读 48

4.3 海量异构信息的获取与处理 50

4.3.1 异构数据整合 50

4.3.2 爬虫设计 50

4.3.3 异构数据处理 53

4.4 基于网站优先级调整的信息动态采集算法 55

4.4.1 网页时新度的确定 56

4.4.2 基于网页时新度的网站优先级调整思路 57

4.4.3 基于网站优先级的多线程网页信息采集技术 58

4.4.4 根据网页类别确定优先级 59

4.4.5 实验及结果分析 59

4.5 本章小结 63

参考文献 63

第5章 网页正文提取与解析 65

5.1 概述 65

5.2 相关工作综述与扩展阅读 66

5.3 基于DOM的网页正文提取与解析 67

5.3.1 DOM规范简述 67

5.3.2 算法描述 68

5.4 基于文字密度的网页正文提取 70

5.4.1 算法流程图 71

5.4.2 网页源码预处理 71

5.4.3 网页正文源码行中文密度的计算 72

5.4.4 网页源码正文分块 72

5.4.5 网页正文识别 72

5.4.6 网页原始格式的保留问题 74

5.4.7 实验设计与数据分析 74

5.5 本章小结 75

参考文献 75

第6章 实体关系抽取 76

6.1 概述 76

6.2 相关工作综述与扩展阅读 76

6.2.1 基于模板的方法 77

6.2.2 基于特征的实体关系抽取 77

6.2.3 基于Kernel的实体关系抽取 77

6.2.4 基于无指导的学习方法 78

6.3 核函数 78

6.3.1 核函数的基本数学性质 79

6.3.2 常用的核函数 80

6.4 特征核函数 80

6.4.1 定义 80

6.4.2 句法核函数 81

6.4.3 组合核函数 83

6.5 未使用Bootstrapping算法的实体关系自动抽取 83

6.5.1 系统模型 83

6.5.2 实验数据集 84

6.5.3 实验结果 84

6.6 基于Bootstrapping算法的实体关系自动抽取 85

6.6.1 系统模型 85

6.6.2 实验结果 85

6.7 本章小结 87

参考文献 87

第7章 命名实体识别及话题跟踪 89

7.1 概述 89

7.2 相关工作综述与扩展阅读 89

7.2.1 命名实体识别研究概况及发展趋势 89

7.2.2 话题跟踪的相关研究 90

7.3 将时间信息用于话题跟踪 91

7.3.1 时间信息识别 91

7.3.2 时间信息的规范 92

7.3.3 时间信息的相似度计算 94

7.3.4 时间信息抽取性能评估 95

7.4 标题信息用于话题跟踪 96

7.5 话题跟踪模型 96

7.6 实验结果与分析 97

7.6.1 新闻正文抽取 97

7.6.2 新闻标题抽取 98

7.6.3 新闻发布时间的抽取 99

7.6.4 实验结果 99

7.7 本章小结 101

参考文献 102

第8章 主题概念自动标引 103

8.1 概述 103

8.2 相关工作综述与扩展阅读 103

8.3 基于概念分析的主题词自动标引 105

8.3.1 文章模型建立 105

8.3.2 主题词自动标引算法 105

8.3.3 主题概念权值的设定 110

8.3.4 同(近)义词、忽略词和用户自定义词的处理 112

8.3.5 基于频率统计和规则过滤的未登录词识别与处理 115

8.4 基于遗传算法的主题概念权值学习与调整算法 120

8.4.1 编码设计 120

8.4.2 适应性函数 120

8.4.3 选择策略 121

8.4.4 变异策略 121

8.4.5 杂交策略 122

8.4.6 学习算法 122

8.5 算法实验与性能分析 124

8.5.1 实验环境与实验数据 124

8.5.2 实验评价标准 124

8.5.3 各领域标引结果满意度测试 125

8.5.4 基于遗传算法的主题概念权值学习与调整实验 127

8.6 下一步的研究计划 128

8.7 本章小结 128

参考文献 128

第9章 文本自动摘要 130

9.1 概述 130

9.2 相关工作综述与扩展阅读 130

9.3 基于主题标引相似计算的文本自动摘要 132

9.3.1 文档结构模型表示 133

9.3.2 主题词串的向量化与构建文档向量空间模型 134

9.3.3 计算文档结构各部分的权重 135

9.3.4 正规则、负规则、用户倾向性词表的定义与应用 136

9.3.5 基于语句相似度的语句冗余度算法以及摘要句冗余度阈值的使用 136

9.3.6 摘要和原文比例的确定以及摘要生成 138

9.3.7 预处理网页正文对提高摘要准确性的作用 139

9.3.8 提高摘要算法实时性的措施 141

9.4 算法实验及性能分析 141

9.5 本章小结 143

参考文献 143

第10章 文本自动分类 145

1O.1 概述 145

10.2 相关工作综述与扩展阅读 147

10.3 算法流程 150

10.4 文本表示模型 151

10.4.1 基于主题词向量模板的文本表示模型 151

10.4.2 基于特征词哈希表的文本表示模型 152

10.5 两种辅助算法 153

10.5.1 改进的向量内积算法 153

10.5.2 改进的相似度算法 154

10.6 类别中心向量分类算法 154

10.6.1 算法主要步骤 154

10.6.2 类别中心向量修正 155

10.7 算法性能分析 157

10.7.1 两种向量表示方法的性能比较 157

10.7.2 类别中心向量分类算法的实验及分析 160

10.8 无分词分类算法 161

10.8.1 基于单字计算的文本分类算法 162

10.8.2 特征向量生成 162

10.8.3 相似度计算 163

10.8.4 实验结果分析 164

10.9 本章小结 169

参考文献 169

第3篇 应用 171

第11章 网络信息检索系统的设计与实现 171

11.1 “艺海拾贝”搜索引擎的设计与实现 171

11.1.1 系统特点 172

11.1.2 网络爬虫 172

11.1.3 信息检索与结果输出 178

11.1.4 系统总体架构与特点 179

11.1.5 目前尚存的主要问题及下一步的工作 180

11.2 “校园采风”搜索引擎的设计与实现 181

11.2.1 概述 181

11.2.2 网页采集 182

11.3 海量异构信息检索原型系统的设计与实现 184

11.3.1 各模块主要功能与实现 184

11.3.2 系统运行效果 186

11.4 本章小结 189

参考文献 189

第12章 文献共享平台与数字图书馆的设计与实现 190

12.1 概述 190

12.2 信息抽取与异构数据表示 190

12.2.1 开源HTML解析工具简介 191

12.2.2 基于XML的信息组织 191

12.3 科技文献共享平台设计与实现 192

12.3.1 系统需求分析 192

12.3.2 系统设计 193

12.3.3 访问CNKI中国期刊全文数据库 196

12.4 本章小结 200

参考文献 200

第13章 信息可视化技术及其实现 201

13.1 概述 201

13.2 可视化类库与工具 201

13.2.1 TouchGraph 201

13.2.2 Prefuse和Flare 202

13.2.3 JGraphX/mxGraph 202

13.3 基于Prefuse可视化技术的网络链接分析 202

13.3.1 问题和目标 202

13.3.2 设计思路 203

13.3.3 实现方案 203

13.3.4 系统实现 209

13.3.5 实验结果 214

13.4 本章小结 215

参考文献 215