第1章 概论 1
1.1 信息检索的概念 1
1.2 信息检索与数据库检索 2
1.3 信息检索模型 3
1.3.1 内容型检索模型 3
1.3.2 全文检索模型 4
1.4 多媒体信息检索 6
1.4.1 基于内容的检索特点 6
1.4.2 多媒体特征 7
1.4.3 多媒体内容描述标准MPEG-7 7
1.4.4 多媒体信息检索 8
1.5 信息检索技术应用举例 9
1.5.1 Web信息检索工具 9
1.5.2 市场营销工具 9
1.5.3 数字图书馆 10
1.6 信息检索相关技术 11
1.6.1 信息过滤 11
1.6.2 文本自动分类 12
1.6.3 交叉语言信息检索 13
1.6.4 信息抽取 13
1.7 信息检索的发展 14
1.8 本书内容导读 15
习题 16
第2章 信息检索系统性能评价 17
2.1 信息检索系统的有效性 17
2.2 性能评价指标 18
2.2.1 查全率和查准率 18
2.2.2 查全率-查准率曲线与平均查准率 19
2.2.3 R查准率 20
2.2.4 F调和均值 21
2.2.5 E均值 21
2.2.6 Ranking指标 21
2.3 Web检索系统性能评价 22
2.4 信息检索领域的相关组织和会议 23
习题 25
第3章 索引项提取与加权 26
3.1 索引项提取 26
3.1.1 索引项 26
3.1.2 索引单位 26
3.1.3 停用词的去除 27
3.1.4 词干提取 29
3.2 索引项加权 30
3.2.1 局部权重 30
3.2.2 全局权重 31
3.2.3 文本规范化 33
3.3 单词分布模型 34
3.3.1 二项分布与泊松分布 35
3.3.2 RIDF 36
3.4 基于KeyGraph的索引项提取 37
3.4.1 基础概念的构成 38
3.4.2 意图的提取 39
习题 41
4.1 线性代数基础 42
4.1.1 向量 42
第4章 基于向量空间模型的检索 42
4.1.2 矩阵 44
4.1.3 向量空间 46
4.2 基于向量空间模型的检索 48
4.3 文本检索中的相关反馈 50
4.4 潜在语义索引 53
4.4.1 主成分分析 53
4.4.2 奇异值分解 55
4.4.3 基于潜在语义索引的检索 57
4.5 高维稀疏矩阵 60
4.5.1 高维稀疏矩阵的压缩 60
4.5.2 高维稀疏矩阵的特征值问题 61
习题 64
第5章 全文检索——字符串匹配技术 65
5.1 字符串匹配问题概述 65
5.2 简单字符串匹配算法 66
5.2.1 SimpleSearch的字符串匹配过程 66
5.2.2 SimpleSearch算法 67
5.2.3 算法分析 67
5.3 Knuth-Morris-Pratt算法 68
5.3.1 KMP字符串匹配过程 68
5.3.2 KMP算法 69
5.3.3 next函数计算 70
5.3.4 next函数 71
5.3.5 KMP算法效率 72
5.4 Boyer-Moore算法 73
5.4.1 BM算法字符串匹配过程 73
5.4.2 BM算法 74
5.4.3 skip函数 75
5.4.4 BM算法效率 76
5.5 Aho-Corasick算法 76
5.5.1 AC机 77
5.5.2 AC字符串匹配过程 78
5.5.4 AC算法效率 79
5.5.3 AC算法 79
5.5.5 AC机构成方法 80
5.6 AC机的动态构成 86
5.6.1 关键字的增加 87
5.6.2 增加关键字的算法 91
5.6.3 关键字的删除 94
5.6.4 关键字删除算法 96
习题 98
6.1 签名文件 99
6.1.1 签名文件的构成方法 99
第6章 全文检索——索引技术 99
6.1.2 签名文件检索 102
6.1.3 多查询词检索 104
6.1.4 分块管理的签名文件 108
6.1.5 签名文件评价 111
6.2 倒排文件 112
6.2.1 倒排文件的构成 113
6.2.2 倒排文件检索 115
6.2.3 采用N元组索引的倒排文件 118
6.2.4 文本号向量的压缩方法 120
6.2.5 倒排文件评价 122
6.3.1 Patricia Trie 124
6.3 采用Patricia Trie的全文检索 124
6.3.2 Patricia Trie检索方法 127
6.3.3 Patricia Trie的长处与不足 128
6.4 Patricia Trie的压缩 129
6.4.1 PAT数组 129
6.4.2 PaCB树压缩方法 130
6.4.3 PaCB树检索方法 131
6.4.4 PaCB树的效率评价 134
习题 135
7.1.1 图像检索方式 136
7.1 图像检索技术概述 136
第7章 图像检索技术 136
7.1.2 图像检索系统概念结构 137
7.1.3 图像的多级描述模型 140
7.1.4 典型图像检索系统 141
7.2 图像特征抽取 142
7.2.1 颜色空间 143
7.2.2 颜色特征 147
7.2.3 纹理特征 149
7.2.4 形状特征 155
7.2.5 空间关系特征 158
7.3 相似性度量 160
7.4 图像检索中的相关反馈技术 163
7.4.1 图像多级特征的相关反馈 164
7.4.2 图像特征规范化 165
7.4.3 特征权重的调整 167
7.5 综合特征检索 169
7.5.1 不同特征的特点 169
7.5.2 特征的综合使用 170
7.6 图像检索示例 170
7.7 图像检索技术发展趋势 177
7.7.1 数据模型 177
7.7.3 压缩域图像检索技术 178
7.7.2 底层特征检索技术 178
7.7.4 高维索引技术 179
7.7.5 语义图像检索技术 180
7.7.6 用户查询接口 181
7.7.7 相关反馈技术 181
习题 183
第8章 Web信息检索 184
8.1 Web信息特点及组织形式 184
8.1.1 Web信息特点 184
8.1.2 Web的信息组织 185
8.1.3 Web信息检索方式 187
8.2 Web信息检索系统分类 188
8.2.1 搜索引擎与目录索引 189
8.2.2 元搜索引擎 190
8.2.3 信息检索代理 191
8.3 搜索引擎 192
8.3.1 工作原理和系统结构 192
8.3.2 搜索引擎的分布检索 193
8.3.3 搜索引擎组成 194
8.3.4 搜索引擎工作过程 197
8.4 Web信息检索的关键技术 198
8.4.1 文档搜集 198
8.4.2 文档预处理 200
8.4.3 索引数据库的建立 201
8.4.4 相似度计算与排序方法 204
8.5 Web信息检索系统技术发展趋势 208
8.5.1 提高检索结果的有效性 208
8.5.2 提供个性化服务 209
8.5.3 提供更完善的检索功能 210
8.5.4 企业搜索引擎的应用 210
8.5.5 提高系统规模和性能 211
习题 211
主要参考文献 212