目录 1
第一章 信息检索导论 1
1.1 信息检索概述 3
1.2 信息检索研究内容 5
1.2.1 信息检索理论 5
1.2.2 信息处理与组织 7
1.2.3 信息检索技术与方法 9
1.2.4 信息可视化技术 10
1.3 信息检索系统分类与评价 11
1.3.1 信息检索系统分类 11
1.3.2 信息检索系统评价 14
1.4 信息检索的未来趋势 15
第二章 信息检索数学模型 17
2.1 信息检索系统的形式化表示 20
2.2 集合论检索模型 23
2.2.1 布尔检索模型 23
2.2.2 模糊集合模型 25
2.2.3 扩展布尔模型 29
2.3 代数论检索模型 32
2.3.1 向量空间模型 32
2.3.2 潜在语义索引模型 36
2.3.3 神经网络模型 38
2.4.1 经典概率模型 42
2.4 概率论检索模型 42
2.4.2 基于Bayesian网络的检索模型 45
2.5 其他信息检索模型与数学理论 48
2.5.1 基于浏览方式的检索模型 48
2.5.2 进化计算与遗传算法 50
2.5.3 粗糙集理论与应用 55
第三章 文本信息检索技术 61
3.1 顺排文档检索 63
3.1.1 表展开法 63
3.1.2 逻辑树展开法 67
3.2 倒排文档检索 74
3.2.1 倒排文档的建立 75
3.2.2 逻辑提问式的转换 77
3.2.3 检索指令表的生成 79
3.2.4 检索实施 82
3.3 加权检索 83
3.3.1 检索词赋权检索 83
3.3.2 词频加权检索 86
3.3.3 加权标引检索 86
3.4 全文检索 87
3.4.1 全文检索的技术指标 87
3.4.2 全文检索的实现 89
3.4.3 全文检索效率的提高 92
3.5.1 超文本技术概述 93
3.5 超文本检索 93
3.5.2 超文本的功能及结构 95
3.5.3 动态超文本生成技术 97
第四章 多媒体信息检索 101
4.1 多媒体技术概述 103
4.1.1 多媒体基本概念 103
4.1.2 多媒体技术概述 104
4.2 多媒体信息模型 110
4.2.1 基于关系的模型 110
4.2.2 基于超文本的模型 111
4.2.3 面向对象的模型 112
4.3.1 数据压缩的基本原理和方法 117
4.3 多媒体信息压缩技术 117
4.3.2 静止图像的压缩 121
4.3.3 视频图像的压缩 122
4.3.4 音频信息的压缩 123
4.4 多媒体信息检索原理 124
4.4.1 基于文本的检索 124
4.4.2 基于内容的检索 125
4.5 多媒体信息检索方法 126
4.5.1 图像信息检索 127
4.5.2 视频信息检索 132
4.5.3 音频信息检索 137
第五章 跨语言检索与分布式检索 143
5.1 跨语言信息检索 145
5.1.1 跨语言检索相关技术 145
5.1.2 跨语言检索实现方法 146
5.1.3 跨语言检索研究重点 155
5.2 分布式信息检索 157
5.2.1 分布式信息检索原理 158
5.2.2 分布式检索处理技术 160
5.2.3 分布式信息检索模式 160
5.2.4 分布式检索资源选择 164
5.3 分布式数据库查询技术 169
5.3.1 分布式数据库查询原理 169
5.3.2 基于DCOM的分布式查询技术 171
5.3.3 基于JDBC的查询技术 172
5.3.4 基于Servlet的查询技术 174
5.3.5 基于CORBA的查询技术 176
5.3.6 基于Mobile Agent的查询技术 177
第六章 信息检索评价 179
6.1 相关性问题与信息检索评价 181
6.1.1 相关性问题及其本质特征 181
6.1.2 相关性问题研究历史回顾 183
6.1.3 米扎罗的相关性问题模型 189
6.2 信息检索性能评价及评价指标 193
6.2.1 系统角度的相关性判断及评价指标 194
6.2.2 用户角度的相关性判断及评价指标 197
6.3 信息检索评价试验平台TREC 199
6.3.1 TREC的诞生与发展 199
6.3.2 TREC的组织形式 201
6.3.3 TREC的试验数据集合(或语料库) 202
6.3.4 TREC的主要评价试验项目 205
6.3.5 TREC的启示及其思考 209
第七章 信息标引方法与技术 213
7.1 自动标引的基本原理 215
7.1.1 自动抽词标引原理 215
7.1.2 自动赋词标引原理 216
7.1.3 自动标引的向量模型 217
7.2 基于词汇分布特征的标引方法 221
7.2.1 统计标引法 221
7.2.2 n-gram标引法 225
7.2.3 统计学习标引法 227
7.2.4 概率标引方法 229
7.3 基于语言规则与内容的标引 236
7.3.1 句法分析标引法 236
7.3.2 语义分析标引法 241
7.3.3 基于概念的标引方法 247
7.4 人工智能标引法 251
7.4.1 基于产生式表示法的标引技术 252
7.4.2 基于语义网络表示法的标引技术 255
7.4.3 基于框架表示法的标引技术 257
7.5 汉语自动标引法 260
7.5.1 词典标引法 261
7.5.2 切分标记法 262
7.5.3 语法分析标引法 263
7.5.4 汉语自动标引专家系统 265
7.5.5 单汉字标引法 267
第八章 文本聚类与分类 271
8.1 文本聚类与分类的基本知识 273
8.1.1 类的基本概念及其特征描述 273
8.1.2 文档距离与相似系数 275
8.1.3 文档类间距离与相似系数 276
8.1.4 文档特征抽取方法 278
8.2 常用文本聚类技术方法 279
8.2.1 等级聚类法 280
8.2.2 动态聚类法 285
8.2.3 聚类效果的评测方法与指标 291
8.3 常用文本分类技术方法 294
8.3.1 文本分类问题的一般性描述 294
8.3.2 kNN分类方法 296
8.3.3 Nalve Bayes分类方法 297
8.3.4 SVM分类方法 299
8.3.5 分类效果的评测方法与指标 304
第九章 信息摘要技术与方法 309
9.1 文本信息摘要的生成与实现 311
9.1.1 基于统计的自动摘要原理 311
9.1.2 基于理解的自动摘要原理 316
9.1.3 其他类型的自动摘要系统简介 317
9.1.4 汉语文献自动摘要的技术难点 318
9.1.5 文本信息自动摘要的评估方法 319
9.1.6 信息摘要技术实用系统 321
9.1.7 自动摘要研究进展 322
9.2 网页信息摘要的生成与实现 324
9.2.1 搜索引擎中的自动摘要 325
9.2.2 Web页面的清洗 325
9.2.3 基于篇章结构的中文网页自动摘要 331
9.3 数值信息摘要的生成与实现 333
9.3.1 数值信息自动摘要的特点与流程 334
9.3.2 医疗诊断系统中的数值摘要 337
9.3.3 石油开采系统中的数值摘要 338
9.3.4 天气预报系统中的数值摘要 339
9.3.5 股票行情系统中的数值摘要 340
9.3.6 数值摘要在其他领域中的运用 341
9.4 视频信息摘要的生成与实现 341
9.4.1 视频信息概述 341
9.4.2 视频结构分析 342
9.4.3 视频信息摘要的类别 343
9.4.4 静态视频信息摘要 344
9.4.5 动态视频摘要 347
9.4.6 全景拼接图 348
9.4.7 基于文字描述的视频信息摘要 348
9.4.8 多媒体视频摘要 349
第十章 Web信息处理 351
10.1 Web信息处理概述 353
10.1.1 Web技术发展概况 353
10.1.2 Web信息处理的基本技术 355
10.2 Web信息系统结构 357
10.3 Web信息资源组织 359
10.3.1 Web信息组织 359
10.3.2 中文Web信息组织与处理 360
10.4 搜索引擎 361
10.4.1 搜索引擎的基本概念 362
10.4.2 搜索引擎的发展历程 363
10.4.3 搜索引擎的分类 364
10.4.4 搜索引擎技术原理 365
10.4.5 搜索引擎性能指标 367
10.4.6 其他搜索引擎技术 368
10.4.7 中文搜索引擎的应用状况 369
10.4.8 中文搜索引擎的优化 370
10.4.9 搜索引擎系统的发展趋势 372
主要参考文献 375