《网络信息检索技术及搜索引擎系统开发》PDF下载

  • 购买积分:10 如何计算积分?
  • 作  者:高凯,郭立炜,许云峰编著
  • 出 版 社:北京:科学出版社
  • 出版年份:2010
  • ISBN:9787030261434
  • 页数:243 页
图书介绍:本书系统全面地介绍了网络信息检索技术的原理技术、最新进展,并阐述了其在搜索引擎系统中的应用。全书共分三篇。基础篇全面地对信息检索技术、网络信息智能处理、搜索引擎技术等进行了综述,力图使读者对网络信息检索技术和搜索引擎系统有一个全面认识;实战篇讲述如何借助开源系统来搭建自己的搜索引擎应用系统,较详细地介绍了Lucene工具包的使用、基于Nutch的搜索引擎系统的构建、SQLServer全文索引技术等;提高篇则针对搜索引擎系统实现中涉及到的部分智能处理技术进行阐述,通过对信息采集过程中对内容雷同网页的去重与聚类处理、信息动态采集的研究与实现、面向自然语言提问的理解与检索、相关概念反馈技术、相关检索与查询纠错、检索结果排序、基于用户浏览历史的网页预取等的叙述,较全面地阐述了网络信息智能检索技术的应用。全书理论联系实际,体系完整,内容新颖,条理清晰,组织合理,图例丰富,说明详细。

第1章 绪论 1

1.1 引言 1

1.2 信息检索的起源和发展 4

1.2.1 手工检索 4

1.2.2 脱机批处理检索 5

1.2.3 联机检索 5

1.2.4 光盘检索 5

1.2.5 网络信息检索 5

1.3 信息检索模型及方法 6

1.3.1 传统布尔检索与扩展布尔检索模型 6

1.3.2 向量空间模型 9

1.3.3 概率检索模型 10

1.3.4 模糊检索模型 10

1.3.5 逻辑检索模型 10

1.3.6 概念检索 11

1.3.7 案例检索 12

1.4 网络信息检索的过程 12

1.4.1 网络信息获取 13

1.4.2 信息加上 13

1.4.3 信息检索与结果提供 13

1.5 网络信息检索的性能评价 13

1.6 网络信息智能化处理 15

1.7 网络信息检索技术的未来 16

1.7.1 以智能化技术为核心的智能检索 16

1.7.2 多媒体信息检索 17

1.7.3 跨语言检索 17

1.7.4 个性化检索 18

本章小结 18

参考文献 18

第2章 网络信息处理 21

2.1 网络信息采集 21

2.2 网络信息抽取 23

2.3 网络信息的标引与索引 24

2.3.1 标引 25

2.3.2 索引 25

2.4 基于链接分析的网页相关性算法及检索结果排序 26

2.4.1 链接分析 26

2.4.2 HITS算法 27

2.4.3 PageRank算法及网页相关性评价 28

2.4.4 HITS算法和PageRank算法的比较 29

2.5 基于自然语言处理的检索 29

2.5.1 自然语言理解的发展 30

2.5.2 基于规则分析的方法 31

2.5.3 基于统计分析的方法 31

2.5.4 自然语言检索 31

本章小结 32

参考文献 32

第3章 搜索引擎 34

3.1 搜索引擎概述 34

3.2 搜索引擎的发展历程 35

3.3 搜索引擎的分类 36

3.3.1 目录索引式搜索引擎 36

3.3.2 自动式搜索引擎 36

3.3.3 元搜索引擎 37

3.3.4 分布式搜索引擎 37

3.4 搜索引擎开发平台简介 38

3.4.1 Lucene 38

3.4.2 Lemur 38

3.4.3 LIUS 38

3.4.4 Egothor 38

3.4.5 Xapian 39

3.5 开源的Web搜索引擎系统简介 39

3.5.1 Nutch 39

3.5.2 YaCy 39

3.5.3 Compass 40

3.6 相关资源 40

3.6.1 权威教材 40

3.6.2 国际著名研究机构 41

3.6.3 著名国际会议 42

本章小结 42

参考文献 42

第4章 Lucene的索引与检索机制及其应用 43

4.1 Lucene简介 43

4.2 Lucene的下载、安装与部署 44

4.2.1 下载Lucene 44

4.2.2 配置环境变量 45

4.2.3 对Lucene Demo的测试 45

4.3 Lucene的索引与检索机制概述 48

4.3.1 文本分析 48

4.3.2 Lucene的索引方式 48

4.3.3 Lucene索引文件的构成 50

4.3.4 Lucene的检索 51

4.3.5 Lucene的索引和检索主要流程 52

4.4 管理和操作索引 53

4.4.1 设定增量索引 53

4.4.2 更新索引 53

4.4.3 优化索引 56

4.4.4 管理索引 56

4.5 Lucene的检索 57

4.5.1 构建检索 57

4.5.2 完成检索的主要步骤 58

4.6 根据用户提交的检索词构造查询 59

4.6.1 对单一域字段检索 60

4.6.2 对逻辑关系检索 60

4.6.3 对范围的检索 61

4.6.4 对前缀通配的检索 62

4.6.5 对Query的前缀和后缀通配的检索 63

4.6.6 模糊检索的实现 63

4.6.7 对多关键词的检索 64

4.6.8 通过Query的SpanNearQuery方式完成近似检索 65

4.7 基于Lucene应用程序:开源搜索引擎系统Nutch 66

4.7.1 Nutch简介 66

4.7.2 在Eclipse中加载Nutch 68

本章小结 76

参考文献 76

第5章 分词处理 77

5.1 概述 77

5.1.1 基于词典匹配的中文分词 77

5.1.2 基于词频统计的无词典中文分词 78

5.1.3 Lucene的分析器 78

5.2 常用的中英文分词器及分词效果 79

5.2.1 停用词分析器 79

5.2.2 标准分析器 81

5.2.3 简单分析器 82

5.2.4 空格分析器 83

5.2.5 关键词分析器 84

5.2.6 ChineseAnalyzer 85

5.2.7 CJKAnalyzer 87

5.2.8 第三方分词工具ICTCLAS 89

5.2.9 第三方分析软件JE 90

5.2.10 第三方分析软件IK_CAnalyzer 91

5.2.11 第三方分析软件MIK_Canalyzer 93

本章小结 94

参考文献 94

第6章 检索结果排序及处理 95

6.1 检索结果集Hits 95

6.2 检索结果的排序及控制 96

6.2.1 Lucene的排序机制 96

6.2.2 通过改变文档的Boost因子来改变排序结果 98

6.2.3 使用Lucene的Sort类定制排序结果 100

6.2.4 对多个指定Field进行综合排序 101

6.3 检索结果的分页 102

6.4 检索结果的高亮显示 104

6.5 检索日志处理 107

6.5.1 下载及配置Log4J 107

6.5.2 配置信息 107

6.5.3 Servlet启动文件 108

6.5.4 测试 112

本章小结 113

参考文献 113

第7章 网络信息获取 114

7.1 网络蜘蛛的工作原理 114

7.2 开源网络蜘蛛简介 115

7.2.1 Weblech 115

7.2.2 J-spider 117

7.3 Nutch网络蜘蛛的工作机制及其使用 118

7.3.1 确定种子集 118

7.3.2 下载网页 119

7.3.3 查阅爬行日志 120

7.3.4 修改配置文件 122

本章小结 127

参考文献 127

第8章 网络信息预处理 128

8.1 使用PDFBOX预处理PDF文档 129

8.2 使用JACOB预处理WORD文档 132

8.3 使用HTMLParser预处理HTML文档 134

8.4 使用POI处理OFFICE文档 138

8.4.1 处理EXCEL文档 138

8.4.2 处理WORD文档 139

8.5 使用Lucene处理SQL Server数据表 142

本章小结 148

参考文献 149

第9章 信息采集中的网页去重与相似网页聚类 150

9.1 概述 150

9.2 相关工作 152

9.3 对同源网页的去重 153

9.4 同源网页去重性能评测 155

9.4.1 测试数据集与测试环境 155

9.4.2 同源网页去重算法性能比较与分析 156

9.5 相似网页聚类 157

9.5.1 网页主题概念的自动标引 158

9.5.2 主题概念权值的确定 159

9.5.3 主题概念抽取的主要流程与示例 160

9.5.4 对主题概念标引过程中可能存在的问题的说明 162

9.5.5 网页间相似关系的度量与聚类处理 162

9.6 对内容雷同网页聚类的性能评测 163

9.6.1 应用环境 163

9.6.2 网页聚类示例 164

9.6.3 召回率与聚类准确率统计 168

9.6.4 可能存在的问题及改进计划 170

本章小结 172

附录 172

参考文献 177

第10章 信息的动态采集与更新 179

10.1 概述 179

10.2 相关工作 180

10.3 泊松过程 181

10.4 用泊松过程描述更新事件 182

10.5 更新事件到达时间的条件分布 182

10.6 网页动态采集及调整策略 184

10.7 基于相关性的网页动态采集调整 187

10.8 网页动态采集实验结果与分析 190

10.8.1 网页更新事件的分布与统计 190

10.8.2 更新效果分析及对可能存在问题的说明 192

10.8.3 系统资源利用分析 193

10.8.4 局限性及下一步的工作 194

本章小结 194

参考文献 195

第11章 面向自然语言提问的理解与处理 196

11.1 概述 196

11.2 相关工作 197

11.3 基于句模分析的自然语言提问处理 199

11.3.1 概述 199

11.3.2 句模 199

11.3.3 核心检索项的抽取 200

11.3.4 概念检索 202

11.4 核心检索项间逻辑关系的识别与处理 203

11.4.1 研究背景 203

11.4.2 对自然语言提问的形式化表示 203

11.4.3 基于产生式规则的归约 204

11.4.4 对二义性问题的处理 206

11.4.5 对语义的处理及其局限性 206

11.5 性能评测 207

11.5.1 对检索数量的定量分析 207

11.5.2 对检索项间逻辑关系处理的分析 209

11.5.3 查全率和查准率统计与分析 211

11.5.4 对尚存问题的说明 214

本章小结 215

参考文献 215

第12章 相关概念反馈 217

12.1 概述 217

12.2 相关工作 217

12.3 相关概念反馈的实现 218

12.3.1 基于用户检索提问的相关概念获取 218

12.3.2 基于FPR算法的相关概念获取 219

本章小结 223

参考文献 223

第13章 相近检索与检索结果排序 225

13.1 查询纠错与相近检索概述 225

13.2 性能测试与分析 226

13.3 可能存在的问题 229

13.4 有关检索结果排序的相关工作 230

13.5 检索结果排序策略 230

13.6 相关性权值的确定 231

13.7 检索效果示例及对可能存在问题的说明 232

本章小结 233

参考文献 233

第14章 基于用户浏览兴趣的网页预取 234

14.1 概述 234

14.2 相关工作 235

14.2.1 个性化技术 235

14.2.2 网页预取 236

14.3 基于Session-tree的网页预取 237

14.3.1 用户行为分析 237

14.3.2 Session-tree结构及算法流程 238

14.4 性能分析及对可能存在问题的说明 240

本章小结 241

参考文献 242