《信息检索技术》PDF下载

  • 购买积分:15 如何计算积分?
  • 作  者:孙建军等编著
  • 出 版 社:北京:科学出版社
  • 出版年份:2004
  • ISBN:7030142446
  • 页数:477 页
图书介绍:本书系统地介绍了信息检索的原理与技术。讨论的中心问题是如何能迅速地检索到相关信息。具体内容包括:信息检索的布尔模型、向量空间模型、概率模型,以及逻辑模型;文献自动处理技术:自动分类、自动聚类、自动文摘;查询的扩展与精化、相关性,以及搜索引擎等。

前言 1

1 引言 1

1.1 信息检索的起源与发展 1

1.1.1 手工检索 1

目录 1

1.1.2 脱机批处理检索 2

1.1.3 联机检索 2

1.1.4 光盘检索 2

1.1.5 网络化联机检索 3

1.2 信息检索技术的研究内容 3

1.2.1 检索模型研究 4

1.2.2 信息处理技术研究 5

1.2.3 技术应用研究 7

1.3.1 以人工智能为代表的信息检索自动化趋势 8

1.3.2 人工参与检索工具的信息组织是检索工具的发展趋势 8

1.3 信息检索技术的未来 8

1.3.3 多媒体信息检索技术的成熟与发展 9

1.3.4 多语种检索的支持 9

1.3.5 个人化的检索工具和专业化的检索工具 10

2 布尔检索模型 11

2.1 传统布尔检索 11

2.1.1 布尔运算 11

2.1.2 传统布尔检索模型 11

2.1.3 布尔查询的自动生成 14

2.1.4 传统布尔查询的评价 16

2.2 扩展布尔检索方法 18

2.2.1 研究背景 18

2.2.2 扩展布尔检索的思想基础 18

2.2.3 P-范式模型 21

2.2.4 P-范式模型的特点 24

2.2.5 P-范式模型的实现 25

2.2.6 扩展布尔操作符 31

3.1 传统向量空间检索 36

3.1.1 向量空间模型介绍 36

3 向量空间检索 36

3.1.2 向量空间模型的评价 40

3.2 广义向量空间检索 41

3.2.1 布尔代数的向量表示 41

3.2.2 无权重的标引词项的向量表示 42

3.2.3 广义的向量空间模型 43

3.2.4 用GVSM来处理布尔查询 49

3.3 项的权重模式 53

3.3.1 项向量的规范化 54

3.3.2 项权重模式 61

3.4 相似度的计算 65

3.4.1 内积相似度运算 66

3.4.2 余弦相似度 66

3.4.4 以项匹配的个数作为相似度计算的依据 67

3.4.3 “距离”相似度运算 67

3.4.5 一种基于概率向量的相似度计算方法 69

3.5 潜在语义标引 71

3.5.1 模型的提出 71

3.5.2 潜在语义标引模型 72

3.5.3 空间中各种向量的匹配 76

3.5.4 应用于布尔查询的潜在语义标引 78

3.5.5 模型的评价 79

4 概率检索 81

4.1 概率信息检索的背景 81

4.1.1 信息检索中概率模型的历史 81

4.1.2 概率检索理论的背景知识 82

4.2 基于相关性概率估计的检索模型 86

4.2.1 作为一个决策策略的概率模型 86

4.2.2 二元独立模型 87

4.2.3 基于概率标引的检索模型 99

4.2.4 逻辑回归模型 102

4.2.5 2-泊松模型 105

4.3 推理网络模型 108

4.3.1 推理网络的总体介绍 108

4.3.2 应用于文献检索的推理网络 109

4.3.3 推理网络与其他模型的比较 122

5 逻辑模型 129

5.1 逻辑模型的建构 129

5.1.1 逻辑模型的基本思想 129

5.1.2 逻辑模型的建构方法 130

5.2 古典逻辑与古典逻辑模型 131

5.2.1 古典逻辑 131

5.2.2 古典逻辑模型 133

5.3 van Rijsbergen的非古典逻辑模型 134

5.3.1 逻辑蕴涵模型 134

5.3.2 不确定性原理 136

5.4 逻辑蕴涵程度的测算 140

5.4.1 逻辑蕴涵程度测算方法 140

5.4.2 向量空间模型的测算 142

5.4.3 布尔模型的测算 143

5.4.4 概率模型的测算 144

5.5 信息检索逻辑模型 145

5.5.1 基于可能世界的逻辑模型 145

5.5.2 基于情景理论的信息检索模型 148

5.5.3 基于术语逻辑的信息检索模型 150

5.5.4 信息检索的元模型 153

5.5.5 信息检索逻辑模型的特征 156

6 自动分类 160

6.1 引言 160

6.2 基本概念 161

6.2.1 定义 161

6.2.2 分类 162

6.2.3 应用 163

6.2.4 训练集与测试集 165

6.3 特征选取 166

6.3.1 预处理 166

6.3.2 标引 167

6.4 降维技术 170

6.4.1 特征选择 170

6.4.2 特征重构 175

6.5 分类方法 178

6.5.1 Rocchio's算法及改进 178

6.5.2 朴素贝叶斯分类方法 180

6.5.3 K最近邻算法 183

6.5.4 决策树方法 185

6.5.5 支持向量机 193

6.5.6 基于投票的方法 196

6.6.1 多重二元分类任务 198

6.6 文档分类的评估指标 198

6.6.2 多重分类和多重标识分类 200

7 聚类 201

7.1 聚类检索 201

7.1.1 聚类策略 202

7.1.2 检索步骤 203

7.2 文献相似度 203

7.2.1 距离 204

7.2.2 相似系数 204

7.2.3 基于提问式的文献相似度 205

7.3 层次聚类法 206

7.3.1 合成聚类法 207

7.3.2 分解聚类法 218

7.4 启发式聚类法 219

7.4.1 密度测试法 219

7.4.2 线性时间法 220

7.5 增量式聚类法 222

7.5.1 单遍聚类法 222

7.5.2 后缀树法 222

7.6 聚类浏览 229

7.6.1 聚类浏览概述 229

7.6.2 聚类浏览算法 230

8 自动文摘 232

8.1 语料库 232

8.1.1 语料库的分类 233

8.1.2 语料库的设计与建设 233

8.1.3 语料库的研究方法 234

8.1.4 概率论基础知识 236

8.1.5 Ngram语法 237

8.2.1 自动分词 238

8.2 词法分析 238

8.2.2 歧义切分 242

8.2.3 未登录词 244

8.2.4 词性标注 244

8.3 句法分析 245

8.3.1 句法分析中的知识表示 245

8.3.2 句法分析算法 258

8.4 自动摘录 268

8.4.1 自动摘录的步骤 268

8.4.2 自动摘录的不足 271

8.5 基于理解的自动文摘 272

8.5.1 基本步骤 272

8.5.2 篇章意义的机内表示 273

8.5.3 理解文摘的不足 274

8.6 信息抽取 275

8.6.1 信息抽取研究的发展历史 275

8.6.3 命名实体识别 276

8.6.2 信息抽取系统的体系结构 276

8.7 基于结构的自动文摘 278

8.7.1 关联网络 278

8.7.2 修辞结构 278

8.7.3 语用功能 279

8.8 文摘评估方法 279

8.8.1 直接评价方法 279

8.8.2 基于任务的评价方法 281

8.8.3 基于目标的评估方法 282

8.9 自动文摘研究所取得的成绩和面临的问题 284

9 查询扩展和精化 286

9.1 查询扩展和精化概述 286

9.1.1 查询扩展和精化的意义 286

9.1.2 查询扩展的类型 287

9.2.1 相关反馈技术介绍 288

9.2 相关反馈技术 288

9.2.2 向量空间模型中的相关反馈 292

9.2.3 概率模型中的相关反馈 297

9.2.4 布尔模型中的相关反馈 302

9.2.5 相关反馈技术的改进 305

9.3 查询检索词选择方案 308

9.3.1 检索词选择概述 308

9.3.2 自动查询扩展中的检索词选择 309

9.3.3 交互式查询扩展中的检索词选择方法 313

9.4 词表扩展技术 315

9.4.1 人工词表WordNet 316

9.4.2 自动构建词表 317

9.5 整体分析技术和局部分析技术 318

9.5.1 整体分析技术 319

9.5.2 局部分析技术 328

9.6 查询的重用 335

9.6.1 steepest descent算法 336

9.6.2 查询相似度计算 337

10 相关性 341

10.1 相关性的研究历史 341

10.1.1 第一阶段的研究 342

10.1.2 第二阶段的研究 343

10.1.3 第三阶段的研究 347

10.2 相关性研究的学派 352

10.2.1 面向系统的相关性 353

10.2.2 面向用户的相关性 356

10.2.3 结论 359

10.3 相关性模型 360

10.3.1 相关性模型:其他学科的视角 360

10.3.2 相关性模型:信息科学的视角 361

10.4 属性与类别 368

10.4.1 基本属性 368

10.4.2 类别 369

10.4.3 属性与类别的关系 371

10.4.4 属性与类别之间关系的修正 376

11 Z39.50检索标准 378

11.1 Z39.50标准概述 378

11.2 Z39.50标准的起源 379

11.2.1 与Z39.50标准相关机构与标准制定过程 379

11.2.2 标准的沿革 380

11.2.3 版本间的关系 381

11.3 Z39.50的功能 381

11.3.1 建立虚拟联合目录 382

11.3.2 联合编目 382

11.3.3 馆际互借 383

11.3.4 光盘检索 383

11.3.5 定题服务 383

11.4 Z39.50的工作原理 384

11.4.1 Z39.50的运行机制 384

11.3.6 万维网检索和信息过滤 384

11.4.2 Z39.50的实现模型 385

11.4.3 Z39.50源端和目标端的主要功能 387

11.5 Z39.50协议简介 396

11.5.1 Z39.50协议的信息检索服务 396

11.5.2 Z39.50协议说明 417

11.6 下一代Z39.50 424

12 Web信息检索工具——搜索引擎 427

12.1 搜索引擎的工作原理与结构 427

12.1.1 信息采集 428

12.1.2 信息标引 429

12.1.3 索引数据库 430

12.1.4 信息检索 432

12.2 搜索引擎的分类 433

12.2.1 目录式搜索引擎 433

12.2.3 元搜索引擎 435

12.2.2 Robot搜索引擎 435

12.2.4 智能搜索引擎 438

12.3 搜索引擎的检索功能 441

12.3.1 基本检索功能 442

12.3.2 高级检索功能 444

12.3.3 与检索相关的功能 445

12.4 信息采集Robot的实现 447

12.4.1 Robot的组成模块 447

12.4.2 Robot的搜索算法 448

12.4.3 Robot的遍历策略 449

12.4.4 Robot的专用协议 451

12.4.5 Robot优化策略 452

12.5 搜索引擎的发展 453

12.5.1 第一代搜索引擎——基于关键词的检索 453

12.5.2 第二代搜索引擎——基于超链接的检索 455

12.5.3 第三代搜索引擎——基于概念的检索 458

参考文献 463