第1章 绪言 1
1.1 Web上查找信息 3
1.1.1浏览 3
1.1.2搜索 4
1.2文本检索概述 7
1.2.1系统体系结构 7
1.2.2文档表示 8
1.2.3文档-查询匹配 9
1.2.4查询处理 11
1.2.5检索有效性度量 13
1.3搜索引擎技术概述 14
1.3.1 Web的专门特性 14
1.3.2 Web爬虫 15
1.3.3利用标签信息 17
1.3.4利用链接信息 18
1.3.5结果组织 23
1.4本书概述 25
第2章 元搜索引擎体系结构 27
2.1系统体系结构 28
2.2为什么使用元搜索引擎技术 33
2.3挑战环境 39
2.3.1异构及其影响 40
2.3.2规范化研究 43
第3章 搜索引擎选择 47
3.1粗糙表记方法 49
3.2基于学习的方法 50
3.3基于样本文档的方法 55
3.4统计表记方法 59
3.4.1 D-WISE 59
3.4.2 CORI Net 61
3.4.3 gG1OSS 63
3.4.4潜在有用文档数目 65
3.4.5最相似文档的相似度 68
3.4.6搜索引擎表记生成 72
第4章 搜索引擎加入 77
4.1搜索引擎连接 77
4.1.1搜索引擎的HTML表单标签 78
4.1.2搜索引擎自动连接 81
4.2搜索结果抽取 86
4.2.1半自动包装器生成 88
4.2.2自动包装器生成 93
第5章 结果合并 108
5.1基于完全文档内容的合并 111
5.2基于搜索结果记录的合并 113
5.3基于结果本地排序的合并 119
5.3.1基于轮转的方法 120
5.3.2基于相似度转换的方法 121
5.3.3基于投票的方法 124
5.3.4基于机器学习的方法 130
第6章 总结与后续研究 132
参考文献 136