第1章 绪论 1
1.1 引言 1
1.2 信息检索的起源和发展 4
1.2.1 手工检索 4
1.2.2 脱机批处理检索 5
1.2.3 联机检索 5
1.2.4 光盘检索 5
1.2.5 网络信息检索 5
1.3 信息检索模型及方法 6
1.3.1 传统布尔检索与扩展布尔检索模型 6
1.3.2 向量空间模型 9
1.3.3 概率检索模型 10
1.3.4 模糊检索模型 10
1.3.5 逻辑检索模型 10
1.3.6 概念检索 11
1.3.7 案例检索 12
1.4 网络信息检索的过程 12
1.4.1 网络信息获取 13
1.4.2 信息加上 13
1.4.3 信息检索与结果提供 13
1.5 网络信息检索的性能评价 13
1.6 网络信息智能化处理 15
1.7 网络信息检索技术的未来 16
1.7.1 以智能化技术为核心的智能检索 16
1.7.2 多媒体信息检索 17
1.7.3 跨语言检索 17
1.7.4 个性化检索 18
本章小结 18
参考文献 18
第2章 网络信息处理 21
2.1 网络信息采集 21
2.2 网络信息抽取 23
2.3 网络信息的标引与索引 24
2.3.1 标引 25
2.3.2 索引 25
2.4 基于链接分析的网页相关性算法及检索结果排序 26
2.4.1 链接分析 26
2.4.2 HITS算法 27
2.4.3 PageRank算法及网页相关性评价 28
2.4.4 HITS算法和PageRank算法的比较 29
2.5 基于自然语言处理的检索 29
2.5.1 自然语言理解的发展 30
2.5.2 基于规则分析的方法 31
2.5.3 基于统计分析的方法 31
2.5.4 自然语言检索 31
本章小结 32
参考文献 32
第3章 搜索引擎 34
3.1 搜索引擎概述 34
3.2 搜索引擎的发展历程 35
3.3 搜索引擎的分类 36
3.3.1 目录索引式搜索引擎 36
3.3.2 自动式搜索引擎 36
3.3.3 元搜索引擎 37
3.3.4 分布式搜索引擎 37
3.4 搜索引擎开发平台简介 38
3.4.1 Lucene 38
3.4.2 Lemur 38
3.4.3 LIUS 38
3.4.4 Egothor 38
3.4.5 Xapian 39
3.5 开源的Web搜索引擎系统简介 39
3.5.1 Nutch 39
3.5.2 YaCy 39
3.5.3 Compass 40
3.6 相关资源 40
3.6.1 权威教材 40
3.6.2 国际著名研究机构 41
3.6.3 著名国际会议 42
本章小结 42
参考文献 42
第4章 Lucene的索引与检索机制及其应用 43
4.1 Lucene简介 43
4.2 Lucene的下载、安装与部署 44
4.2.1 下载Lucene 44
4.2.2 配置环境变量 45
4.2.3 对Lucene Demo的测试 45
4.3 Lucene的索引与检索机制概述 48
4.3.1 文本分析 48
4.3.2 Lucene的索引方式 48
4.3.3 Lucene索引文件的构成 50
4.3.4 Lucene的检索 51
4.3.5 Lucene的索引和检索主要流程 52
4.4 管理和操作索引 53
4.4.1 设定增量索引 53
4.4.2 更新索引 53
4.4.3 优化索引 56
4.4.4 管理索引 56
4.5 Lucene的检索 57
4.5.1 构建检索 57
4.5.2 完成检索的主要步骤 58
4.6 根据用户提交的检索词构造查询 59
4.6.1 对单一域字段检索 60
4.6.2 对逻辑关系检索 60
4.6.3 对范围的检索 61
4.6.4 对前缀通配的检索 62
4.6.5 对Query的前缀和后缀通配的检索 63
4.6.6 模糊检索的实现 63
4.6.7 对多关键词的检索 64
4.6.8 通过Query的SpanNearQuery方式完成近似检索 65
4.7 基于Lucene应用程序:开源搜索引擎系统Nutch 66
4.7.1 Nutch简介 66
4.7.2 在Eclipse中加载Nutch 68
本章小结 76
参考文献 76
第5章 分词处理 77
5.1 概述 77
5.1.1 基于词典匹配的中文分词 77
5.1.2 基于词频统计的无词典中文分词 78
5.1.3 Lucene的分析器 78
5.2 常用的中英文分词器及分词效果 79
5.2.1 停用词分析器 79
5.2.2 标准分析器 81
5.2.3 简单分析器 82
5.2.4 空格分析器 83
5.2.5 关键词分析器 84
5.2.6 ChineseAnalyzer 85
5.2.7 CJKAnalyzer 87
5.2.8 第三方分词工具ICTCLAS 89
5.2.9 第三方分析软件JE 90
5.2.10 第三方分析软件IK_CAnalyzer 91
5.2.11 第三方分析软件MIK_Canalyzer 93
本章小结 94
参考文献 94
第6章 检索结果排序及处理 95
6.1 检索结果集Hits 95
6.2 检索结果的排序及控制 96
6.2.1 Lucene的排序机制 96
6.2.2 通过改变文档的Boost因子来改变排序结果 98
6.2.3 使用Lucene的Sort类定制排序结果 100
6.2.4 对多个指定Field进行综合排序 101
6.3 检索结果的分页 102
6.4 检索结果的高亮显示 104
6.5 检索日志处理 107
6.5.1 下载及配置Log4J 107
6.5.2 配置信息 107
6.5.3 Servlet启动文件 108
6.5.4 测试 112
本章小结 113
参考文献 113
第7章 网络信息获取 114
7.1 网络蜘蛛的工作原理 114
7.2 开源网络蜘蛛简介 115
7.2.1 Weblech 115
7.2.2 J-spider 117
7.3 Nutch网络蜘蛛的工作机制及其使用 118
7.3.1 确定种子集 118
7.3.2 下载网页 119
7.3.3 查阅爬行日志 120
7.3.4 修改配置文件 122
本章小结 127
参考文献 127
第8章 网络信息预处理 128
8.1 使用PDFBOX预处理PDF文档 129
8.2 使用JACOB预处理WORD文档 132
8.3 使用HTMLParser预处理HTML文档 134
8.4 使用POI处理OFFICE文档 138
8.4.1 处理EXCEL文档 138
8.4.2 处理WORD文档 139
8.5 使用Lucene处理SQL Server数据表 142
本章小结 148
参考文献 149
第9章 信息采集中的网页去重与相似网页聚类 150
9.1 概述 150
9.2 相关工作 152
9.3 对同源网页的去重 153
9.4 同源网页去重性能评测 155
9.4.1 测试数据集与测试环境 155
9.4.2 同源网页去重算法性能比较与分析 156
9.5 相似网页聚类 157
9.5.1 网页主题概念的自动标引 158
9.5.2 主题概念权值的确定 159
9.5.3 主题概念抽取的主要流程与示例 160
9.5.4 对主题概念标引过程中可能存在的问题的说明 162
9.5.5 网页间相似关系的度量与聚类处理 162
9.6 对内容雷同网页聚类的性能评测 163
9.6.1 应用环境 163
9.6.2 网页聚类示例 164
9.6.3 召回率与聚类准确率统计 168
9.6.4 可能存在的问题及改进计划 170
本章小结 172
附录 172
参考文献 177
第10章 信息的动态采集与更新 179
10.1 概述 179
10.2 相关工作 180
10.3 泊松过程 181
10.4 用泊松过程描述更新事件 182
10.5 更新事件到达时间的条件分布 182
10.6 网页动态采集及调整策略 184
10.7 基于相关性的网页动态采集调整 187
10.8 网页动态采集实验结果与分析 190
10.8.1 网页更新事件的分布与统计 190
10.8.2 更新效果分析及对可能存在问题的说明 192
10.8.3 系统资源利用分析 193
10.8.4 局限性及下一步的工作 194
本章小结 194
参考文献 195
第11章 面向自然语言提问的理解与处理 196
11.1 概述 196
11.2 相关工作 197
11.3 基于句模分析的自然语言提问处理 199
11.3.1 概述 199
11.3.2 句模 199
11.3.3 核心检索项的抽取 200
11.3.4 概念检索 202
11.4 核心检索项间逻辑关系的识别与处理 203
11.4.1 研究背景 203
11.4.2 对自然语言提问的形式化表示 203
11.4.3 基于产生式规则的归约 204
11.4.4 对二义性问题的处理 206
11.4.5 对语义的处理及其局限性 206
11.5 性能评测 207
11.5.1 对检索数量的定量分析 207
11.5.2 对检索项间逻辑关系处理的分析 209
11.5.3 查全率和查准率统计与分析 211
11.5.4 对尚存问题的说明 214
本章小结 215
参考文献 215
第12章 相关概念反馈 217
12.1 概述 217
12.2 相关工作 217
12.3 相关概念反馈的实现 218
12.3.1 基于用户检索提问的相关概念获取 218
12.3.2 基于FPR算法的相关概念获取 219
本章小结 223
参考文献 223
第13章 相近检索与检索结果排序 225
13.1 查询纠错与相近检索概述 225
13.2 性能测试与分析 226
13.3 可能存在的问题 229
13.4 有关检索结果排序的相关工作 230
13.5 检索结果排序策略 230
13.6 相关性权值的确定 231
13.7 检索效果示例及对可能存在问题的说明 232
本章小结 233
参考文献 233
第14章 基于用户浏览兴趣的网页预取 234
14.1 概述 234
14.2 相关工作 235
14.2.1 个性化技术 235
14.2.2 网页预取 236
14.3 基于Session-tree的网页预取 237
14.3.1 用户行为分析 237
14.3.2 Session-tree结构及算法流程 238
14.4 性能分析及对可能存在问题的说明 240
本章小结 241
参考文献 242