第1章 引言 1
1.1 信息检索 1
1.1.1 信息检索的早期发展 1
1.1.2 图书馆和数字图书馆中的信息检索 2
1.1.3 舞台中央的信息检索 2
1.2 信息检索问题 3
1.2.1 用户的任务 3
1.2.2 信息检索与数据检索 4
1.3 信息检索系统 4
1.3.1 信息检索系统的软件架构 4
1.3.2 检索和排序过程 5
1.4 Web 6
1.4.1 Web简史 7
1.4.2 电子出版时代 7
1.4.3 Web如何改变搜索 8
1.4.4 Web上的实际问题 9
1.5 本书的组织结构 9
1.5.1 本书的重点 9
1.5.2 本书的内容 10
1.6 本书的教学资源网站 12
1.7 文献讨论 12
第2章 用户搜索界面 16
2.1 介绍 16
2.2 人们如何搜索 16
2.2.1 信息查找与探索式搜索 16
2.2.2 信息搜寻的经典模型与动态模型 17
2.2.3 导航与搜索 18
2.2.4 对搜索过程的观察 18
2.3 现今的搜索界面 19
2.3.1 启动搜寻 19
2.3.2 查询描述 19
2.3.3 查询描述界面 20
2.3.4 检索结果显示 22
2.3.5 查询重构 24
2.3.6 组织搜索结果 26
2.4 搜索界面的可视化 32
2.4.1 可视化布尔语法 32
2.4.2 可视化查询结果中的查询项 33
2.4.3 可视化词语和文档间的关系 36
2.4.4 文本挖掘的可视化 38
2.5 搜索界面的设计和评价 40
2.6 趋势和研究问题 42
2.7 文献讨论 42
第3章 信息检索建模 44
3.1 信息检索模型 44
3.1.1 建模和排序 44
3.1.2 信息检索模型描述 44
3.1.3 信息检索模型的分类体系 45
3.2 经典信息检索 47
3.2.1 基本概念 47
3.2.2 布尔模型 49
3.2.3 项权重 50
3.2.4 TF-IDF权重 52
3.2.5 文档长度归一化 56
3.2.6 向量模型 57
3.2.7 概率模型 59
3.2.8 经典模型之间的简单比较 64
3.3 其他集合论模型 64
3.3.1 基于集合的模型 64
3.3.2 扩展布尔模型 68
3.3.3 模糊集模型 70
3.4 其他代数模型 72
3.4.1 广义向量空间模型 72
3.4.2 潜在语义索引模型 74
3.4.3 神经网络模型 75
3.5 其他概率模型 76
3.5.1 BM25模型 77
3.5.2 语言模型 78
3.5.3 随机差异模型 83
3.5.4 贝叶斯网模型 85
3.6 其他模型 90
3.6.1 超文本模型 90
3.6.2 基于Web的模型 91
3.6.3 结构化文本检索 91
3.6.4 多媒体检索 92
3.6.5 企业和垂直搜索 92
3.7 趋势和研究问题 92
3.8 文献讨论 93
第4章 检索评价 96
4.1 介绍 96
4.2 Cranfield范式 97
4.2.1 历史简述 97
4.2.2 参考集 98
4.3 检索指标 98
4.3.1 精度和召回率 98
4.3.2 单值总结:P @n,MAP,MRR,F 102
4.3.3 面向用户的指标 105
4.3.4 折扣累积增益 106
4.3.5 二元偏好 109
4.3.6 排序相关性测度 111
4.4 参考文档集 115
4.4.1 TREC参考集 115
4.4.2 其他参考集 121
4.4.3 其他小规模测试文档集 121
4.5 基于用户的评价 122
4.5.1 实验室中的人工实验 122
4.5.2 并排面板 122
4.5.3 A/B测试 123
4.5.4 众包 124
4.5.5 使用点击数据的评价 125
4.6 实践说明 126
4.7 趋势和研究问题 127
4.8 文献讨论 127
第5章 相关反馈与查询扩展 129
5.1 介绍 129
5.2 反馈方法的框架 129
5.3 显式相关反馈 131
5.3.1 向量模型的相关反馈:Rocchio方法 131
5.3.2 概率模型的相关反馈 133
5.3.3 相关反馈的评价 134
5.4 基于点击的显式反馈 134
5.4.1 眼动追踪和相关性评价 134
5.4.2 用户行为 135
5.4.3 点击作为用户偏好的指标 136
5.5 通过局部分析的隐式反馈 138
5.5.1 通过局部聚类的隐式反馈 138
5.5.2 通过局部上下文分析的隐式反馈 140
5.6 通过全局分析的隐式反馈 141
5.6.1 基于相似度同义词典的查询扩展 141
5.6.2 基于统计同义词典的查询扩展 143
5.7 趋势和研究问题 145
5.8 文献讨论 145
第6章 文档:语言及属性 147
6.1 介绍 147
6.2 元数据 148
6.3 文档格式 149
6.3.1 文本 149
6.3.2 多媒体 149
6.3.3 图形和虚拟现实 150
6.4 标记语言 151
6.4.1 SGML 151
6.4.2 HTML 153
6.4.3 XML 155
6.4.4 RDF 157
6.4.5 HyTime 158
6.5 文本属性 159
6.5.1 信息论 159
6.5.2 自然语言建模 159
6.5.3 文本相似度 162
6.6 文档预处理 163
6.6.1 文本的词汇分析 163
6.6.2 去除禁用词 164
6.6.3 词干提取 165
6.6.4 关键词选择 166
6.6.5 同义词典 166
6.7 组织文档 168
6.7.1 分类体系法 168
6.7.2 分众分类法 169
6.8 文本压缩 170
6.8.1 基本概念 170
6.8.2 统计方法 171
6.8.3 统计方法:建模 171
6.8.4 统计方法:编码 173
6.8.5 字典方法 179
6.8.6 压缩预处理 180
6.8.7 文本压缩技术的比较 181
6.8.8 结构化文本压缩 182
6.9 趋势和研究问题 183
6.10 文献讨论 185
第7章 查询:语言及属性 187
7.1 查询语言 187
7.1.1 基于关键词的查询 188
7.1.2 非关键词查询 190
7.1.3 结构化查询 192
7.1.4 查询协议 194
7.2 查询属性 195
7.2.1 Web查询的特征 195
7.2.2 用户搜索行为 197
7.2.3 查询意图 197
7.2.4 查询主题 199
7.2.5 查询会话与任务 200
7.2.6 查询难度 200
7.3 趋势和研究问题 203
7.4 文献讨论 204
第8章 文本分类 205
8.1 介绍 205
8.2 文本分类的特性描述 206
8.2.1 机器学习 206
8.2.2 文本分类问题 206
8.2.3 文本分类算法 207
8.3 无监督算法 208
8.3.1 聚类 208
8.3.2 朴素文本分类 212
8.4 监督算法 212
8.4.1 决策树 214
8.4.2 k近邻分类器 218
8.4.3 Rocchio分类器 219
8.4.4 概率朴素贝叶斯文档分类 221
8.4.5 支持向量机分类器 224
8.4.6 集成分类器 231
8.4.7 关于监督算法的结束语 234
8.5 特征选择或降维 234
8.5.1 项-类别出现列联表 235
8.5.2 索引项文档频率 236
8.5.3 TF-IDF权重 236
8.5.4 互信息 236
8.5.5 信息增益 237
8.5.6 卡方检验 237
8.5.7 特征选择的作用 238
8.6 评价指标 238
8.6.1 列联表 238
8.6.2 准确率和错误率 239
8.6.3 精度和召回率 239
8.6.4 F测度和F1 240
8.6.5 交叉检验 241
8.6.6 标准文档集 241
8.7 类别组织——构建分类体系 242
8.8 趋势和研究问题 244
8.9 文献讨论 244
第9章 索引和搜索 247
9.1 介绍 247
9.2 倒排索引 249
9.2.1 基本概念 249
9.2.2 完全倒排索引 250
9.2.3 搜索 252
9.2.4 排序 256
9.2.5 构建 257
9.2.6 压缩的倒排索引 260
9.2.7 结构化查询 261
9.3 签名文件 262
9.4 后缀树和后缀数组 264
9.4.1 结构:trie树和后缀树 265
9.4.2 简单字符串搜索 266
9.4.3 复杂模式的搜索 267
9.4.4 构建 268
9.4.5 压缩的后缀数组 270
9.5 序列搜索 273
9.5.1 简单字符串:Horspool 274
9.5.2 复杂模式:自动机和位并行 276
9.5.3 更快的位并行算法 279
9.5.4 正则表达式 281
9.5.5 多重模式 282
9.5.6 近似搜索 283
9.5.7 搜索压缩文本 285
9.6 多维索引 287
9.7 趋势和研究问题 288
9.8 文献讨论 289
第10章 并行与分布式信息检索 293
10.1 介绍 293
10.2 分布式信息检索系统的分类 294
10.3 数据划分 296
10.3.1 文档集划分 297
10.3.2 文档集选择 298
10.3.3 倒排索引划分 299
10.3.4 划分其他索引 302
10.4 并行信息检索 303
10.4.1 介绍 303
10.4.2 在MIMD架构上的并行信息检索 305
10.4.3 在SIMD架构上的并行信息检索 306
10.5 基于集群的信息检索 310
10.6 分布式信息检索 310
10.6.1 介绍 310
10.6.2 索引 313
10.6.3 查询处理 315
10.6.4 Web问题 320
10.7 联合搜索 320
10.8 在对等网络中的检索 322
10.9 趋势和研究问题 325
10.10 文献讨论 326
第11章 Web检索 327
11.1 介绍 327
11.2 一个有挑战性的问题 328
11.3 Web 329
11.3.1 特性 329
11.3.2 Web图的结构 331
11.3.3 对Web建模 332
11.3.4 链接分析 334
11.4 搜索引擎架构 335
11.4.1 基本架构 335
11.4.2 基于集群的架构 336
11.4.3 缓存 337
11.4.4 多级索引 339
11.4.5 分布式架构 340
11.5 搜索引擎排序 342
11.5.1 排序信号 342
11.5.2 基于链接的排序 343
11.5.3 简单的排序函数 345
11.5.4 排序学习 345
11.5.5 学习排序函数 346
11.5.6 质量评价 347
11.5.7 Web垃圾 348
11.6 管理Web数据 348
11.6.1 为文档分配标识符 348
11.6.2 元数据 349
11.6.3 压缩Web图 349
11.6.4 处理重复数据 349
11.7 搜索引擎用户交互 350
11.7.1 搜索矩形范式 351
11.7.2 搜索引擎结果页面 356
11.7.3 培养用户 363
11.8 浏览 364
11.8.1 扁平浏览 364
11.8.2 结构导向的浏览和Web目录 364
11.9 浏览之外 366
11.9.1 超文本和Web 366
11.9.2 搜索与浏览相结合 366
11.9.3 Web查询语言 367
11.9.4 动态搜索 367
11.10 相关问题 368
11.10.1 计算广告学 368
11.10.2 Web挖掘 370
11.10.3 元搜索 371
11.11 趋势和研究问题 372
11.11.1 静态文本数据之外 372
11.11.2 目前的挑战 373
11.12 文献讨论 374
第12章 Web爬取 376
12.1 介绍 376
12.2 网络爬虫的应用 377
12.2.1 通用Web搜索 377
12.2.2 聚焦爬取 378
12.2.3 Web刻画 378
12.2.4 镜像 378
12.2.5 网站分析 379
12.3 爬虫的分类体系 379
12.4 架构和实现 380
12.4.1 爬虫架构 380
12.4.2 实际问题 382
12.4.3 并行爬取 384
12.5 调度算法 384
12.5.1 选择策略 385
12.5.2 重访问策略 387
12.5.3 友好策略 391
12.5.4 组合策略 393
12.6 评价 393
12.6.1 评价网络使用 393
12.6.2 评价长期调度 394
12.7 趋势和研究问题 395
12.7.1 爬取“暗网” 395
12.7.2 在网站帮助下的爬取 396
12.7.3 分布式爬取 396
12.8 文献讨论 396
第13章 结构化文本检索 398
13.1 介绍 398
13.2 结构化能力 399
13.2.1 显式和隐式结构对比 399
13.2.2 静态与动态结构对比 399
13.2.3 单一层次结构与多层次结构对比 400
13.3 早期文本检索模型 400
13.3.1 基于非覆盖列表的模型 401
13.3.2 基于相邻结点的模型 401
13.3.3 结构化文本结果排序 402
13.4 XML检索 403
13.4.1 XML检索中的挑战 403
13.4.2 索引策略 404
13.4.3 排序策略 405
13.4.4 去除重叠 412
13.5 XML检索评价 413
13.5.1 文档集 414
13.5.2 主题 414
13.5.3 检索任务 415
13.5.4 相关性 416
13.5.5 测度 417
13.6 查询语言 419
13.6.1 特性 419
13.6.2 XML查询语言分类 420
13.6.3 XML查询语言样例 421
13.7 趋势和研究问题 425
13.8 文献讨论 427
第14章 多媒体信息检索 429
14.1 介绍 429
14.1.1 什么是多媒体 429
14.1.2 多媒体检索 429
14.1.3 文本检索与多媒体检索的对比 430
14.2 挑战 431
14.2.1 语义鸿沟 431
14.2.2 特征歧义性 432
14.2.3 机器生成的数据 432
14.3 基于内容的图像检索 433
14.3.1 基于颜色的检索 433
14.3.2 纹理 434
14.3.3 显著点 436
14.4 声音和音乐检索 437
14.4.1 指纹识别 437
14.4.2 语音识别 438
14.4.3 说话人识别 440
14.4.4 语音文档检索 440
14.4.5 音频基础知识 440
14.5 检索和浏览视频 443
14.5.1 视频摘要 443
14.5.2 静态摘要 444
14.5.3 图像拼接与跳跃剧照 445
14.5.4 动态摘要 446
14.5.5 交互式摘要 447
14.5.6 视觉与听觉浏览对比 448
14.5.7 摘要评价 448
14.6 融合模型:合并所有信息 449
14.6.1 人脸命名 449
14.6.2 图像命名 450
14.6.3 音频命名 451
14.6.4 结合音频与视频的音-视频语音识别 451
14.6.5 结合音频和视频的多媒体处理 453
14.7 分割 453
14.7.1 视频分割样例 454
14.7.2 视频分割方案 455
14.7.3 利用边缘的视频分割 455
14.7.4 语音分割 456
14.7.5 分割评价 457
14.8 压缩和MPEG标准 457
14.8.1 强度和采样 458
14.8.2 颜色 458
14.8.3 有损压缩 459
14.8.4 无损压缩 461
14.8.5 时间冗余 461
14.8.6 运动预测 461
14.8.7 MPEG标准 462
14.9 趋势和研究问题 465
14.10 文献讨论 466
第15章 企业搜索 469
15.1 介绍 469
15.1.1 企业搜索的特点和应用 469
15.1.2 企业搜索软件 470
15.1.3 工作场所搜索 471
15.2 企业搜索任务 471
15.2.1 搜索支持任务的例子 471
15.2.2 搜索类型 473
15.2.3 研究企业搜索 473
15.3 企业搜索系统的结构 474
15.3.1 收集 474
15.3.2 提取 476
15.3.3 索引 477
15.3.4 文本注释的索引 477
15.3.5 查询处理 478
15.3.6 搜索结果的展示 479
15.3.7 安全模型 480
15.3.8 联合/元搜索 482
15.4 企业搜索评价 484
15.4.1 企业搜索的公开测试集 484
15.4.2 企业搜索内部评价 485
15.4.3 企业搜索调试 486
15.4.4 所能期待的是什么 487
15.5 不满意的可能原因 488
15.6 情境化和个性化 490
15.6.1 情境化的控制和工具 491
15.6.2 情境化:本地、企业或全球 493
15.6.3 轮廓的隐私 494
15.6.4 定义、建立和维护轮廓 494
15.6.5 用户建模 495
15.6.6 隐式评价 496
15.6.7 信息过滤 496
15.6.8 社会化推荐系统 497
15.7 趋势和研究问题 497
15.8 文献讨论 497
第16章 图书馆系统 499
16.1 图书馆的信息环境 499
16.2 联机公共检索目录 500
16.2.1 OPAC和书目记录 501
16.2.2 来自ILS的信息检索 503
16.2.3 混合图书馆的整合 504
16.2.4 OPAC和最终用户 505
16.2.5 ILS:供应商和产品 506
16.3 信息检索系统与文档数据库 507
16.3.1 书目和全文数据库 508
16.3.2 数据库记录的内容 508
16.3.3 联机产业:数据库供应商 510
16.3.4 来自文档数据库的信息检索 511
16.4 组织机构内部的信息检索 514
16.5 趋势和研究问题 515
16.6 文献讨论 516
第17章 数字图书馆 517
17.1 介绍 517
17.2 定义数字图书馆 517
17.3 通用架构 518
17.4 基本概念 519
17.4.1 数字对象和馆藏 519
17.4.2 元数据和目录 520
17.4.3 资源库/档案库 522
17.4.4 服务 525
17.5 社会经济问题 527
17.5.1 社会问题 527
17.5.2 经济问题 527
17.6 软件系统 528
17.6.1 Greenstone 529
17.6.2 Eprints 529
17.6.3 DSpace 529
17.6.4 Fedora 529
17.6.5 ODL 530
17.6.6 5S套件 530
17.7 数字图书馆案例研究 531
17.7.1 联网学位论文数字图书馆 531
17.7.2 国家科学数字图书馆 532
17.7.3 ETANA-DL考古数字图书馆 532
17.8 趋势和研究问题 532
17.8.1 评价 532
17.8.2 集成 533
17.8.3 其他研究挑战 533
17.9 文献讨论 534
附录A 开源搜索引擎 535
附录B 作者简介 549
参考文献 554
索引 654