1 网络信息采集实验 1
1.1 网络蜘蛛程序设计 1
1.1.1 实验目标 1
1.1.2 实验内容 1
1.1.3 背景知识 1
1.1.4 实验步骤 6
1.1.5 参考示例 6
1.1.6 实验分析 8
1.1.7 参考程序 8
1.2 网页清理 27
1.2.1 实验目标 27
1.2.2 实验内容 27
1.2.3 背景知识 27
1.2.4 实验步骤 28
1.2.5 参考示例 28
1.2.6 实验分析 32
1.3 Google检索接口的调用 33
1.3.1 实验目标 33
1.3.2 实验内容 33
1.3.3 背景知识 33
1.3.4 实验步骤 34
1.3.5 参考示例 34
1.3.6 实验分析 36
1.3.7 参考程序 36
2 信息索引实验 43
2.1 倒排文档索引 43
2.1.1 实验目标 43
2.1.2 实验内容 43
2.1.3 背景知识 43
2.1.4 实验步骤 45
2.1.5 参考示例 45
2.1.6 实验分析 48
2.2 词干提取和停用词分析 48
2.2.1 实验目标 48
2.2.2 实验内容 48
2.2.3 背景知识 49
2.2.4 实验步骤 49
2.2.5 参考示例 50
2.2.6 实验分析 52
2.3 中文分词 53
2.3.1 实验目标 53
2.3.2 实验内容 53
2.3.3 背景知识 53
2.3.4 实验步骤 55
2.3.5 参考示例 56
2.3.6 实验分析 58
2.4 Lucene索引分析 58
2.4.1 实验目标 58
2.4.2 实验内容 58
2.4.3 背景知识 58
2.4.4 实验步骤 58
2.4.5 参考示例 59
2.4.6 实验分析 59
3 信息检索模型实验 67
3.1 向量空间模型 67
3.1.1 实验目标 67
3.1.2 实验内容 67
3.1.3 背景知识 67
3.1.4 实验步骤 70
3.1.5 参考示例 70
3.1.6 实验分析 77
3.2 概率模型 77
3.2.1 实验目标 77
3.2.2 实验内容 77
3.2.3 背景知识 78
3.2.4 实验步骤 80
3.2.5 参考示例 80
3.2.6 实验分析 86
3.3 基于Lucene的检索扩展 86
3.3.1 实验目标 86
3.3.2 实验内容 86
3.3.3 背景知识 86
3.3.4 实验步骤 88
3.3.5 参考示例 88
3.3.6 实验分析 110
3.4 PageRank算法及实现 111
3.4.1 实验目标 111
3.4.2 实验内容 111
3.4.3 背景知识 111
3.4.4 实验步骤 112
3.4.5 参考示例 112
3.4.6 实验分析 115
4 检索评价实验 116
4.1 查全率和查准率的关系 116
4.1.1 实验目标 116
4.1.2 实验内容 116
4.1.3 背景知识 116
4.1.4 实验步骤 118
4.1.5 参考示例 119
4.1.6 实验分析 122
4.2 计算MAP和R-prec值 122
4.2.1 实验目标 122
4.2.2 实验内容 122
4.2.3 背景知识 122
4.2.4 实验步骤 124
4.2.5 参考示例 125
4.2.6 实验分析 125
4.3 利用P@N的搜索引擎比较实验 125
4.3.1 实验目标 125
4.3.2 实验内容 125
4.3.3 背景知识 126
4.3.4 实验步骤 127
4.3.5 参考示例 128
4.3.6 实验分析 129
5 XML检索实验 131
5.1 XML查询与显示 131
5.1.1 实验目标 131
5.1.2 实验内容 131
5.1.3 背景知识 131
5.1.4 实验步骤 134
5.1.5 参考示例 135
5.1.6 实验分析 140
5.2 WHU-XML系统的使用与比较 142
5.2.1 实验目标 142
5.2.2 实验内容 142
5.2.3 背景知识 142
5.2.4 实验步骤 147
5.2.5 参考示例 148
5.2.6 实验分析 148
附1 Lucene简介 150
附2 环境安装与配置 152
主要参考文献 160