信息检索技术PDF电子书下载
- 电子书积分:15 积分如何计算积分?
- 作 者:孙建军等编著
- 出 版 社:北京:科学出版社
- 出版年份:2004
- ISBN:7030142446
- 页数:477 页
前言 1
1 引言 1
1.1 信息检索的起源与发展 1
1.1.1 手工检索 1
目录 1
1.1.2 脱机批处理检索 2
1.1.3 联机检索 2
1.1.4 光盘检索 2
1.1.5 网络化联机检索 3
1.2 信息检索技术的研究内容 3
1.2.1 检索模型研究 4
1.2.2 信息处理技术研究 5
1.2.3 技术应用研究 7
1.3.1 以人工智能为代表的信息检索自动化趋势 8
1.3.2 人工参与检索工具的信息组织是检索工具的发展趋势 8
1.3 信息检索技术的未来 8
1.3.3 多媒体信息检索技术的成熟与发展 9
1.3.4 多语种检索的支持 9
1.3.5 个人化的检索工具和专业化的检索工具 10
2 布尔检索模型 11
2.1 传统布尔检索 11
2.1.1 布尔运算 11
2.1.2 传统布尔检索模型 11
2.1.3 布尔查询的自动生成 14
2.1.4 传统布尔查询的评价 16
2.2 扩展布尔检索方法 18
2.2.1 研究背景 18
2.2.2 扩展布尔检索的思想基础 18
2.2.3 P-范式模型 21
2.2.4 P-范式模型的特点 24
2.2.5 P-范式模型的实现 25
2.2.6 扩展布尔操作符 31
3.1 传统向量空间检索 36
3.1.1 向量空间模型介绍 36
3 向量空间检索 36
3.1.2 向量空间模型的评价 40
3.2 广义向量空间检索 41
3.2.1 布尔代数的向量表示 41
3.2.2 无权重的标引词项的向量表示 42
3.2.3 广义的向量空间模型 43
3.2.4 用GVSM来处理布尔查询 49
3.3 项的权重模式 53
3.3.1 项向量的规范化 54
3.3.2 项权重模式 61
3.4 相似度的计算 65
3.4.1 内积相似度运算 66
3.4.2 余弦相似度 66
3.4.4 以项匹配的个数作为相似度计算的依据 67
3.4.3 “距离”相似度运算 67
3.4.5 一种基于概率向量的相似度计算方法 69
3.5 潜在语义标引 71
3.5.1 模型的提出 71
3.5.2 潜在语义标引模型 72
3.5.3 空间中各种向量的匹配 76
3.5.4 应用于布尔查询的潜在语义标引 78
3.5.5 模型的评价 79
4 概率检索 81
4.1 概率信息检索的背景 81
4.1.1 信息检索中概率模型的历史 81
4.1.2 概率检索理论的背景知识 82
4.2 基于相关性概率估计的检索模型 86
4.2.1 作为一个决策策略的概率模型 86
4.2.2 二元独立模型 87
4.2.3 基于概率标引的检索模型 99
4.2.4 逻辑回归模型 102
4.2.5 2-泊松模型 105
4.3 推理网络模型 108
4.3.1 推理网络的总体介绍 108
4.3.2 应用于文献检索的推理网络 109
4.3.3 推理网络与其他模型的比较 122
5 逻辑模型 129
5.1 逻辑模型的建构 129
5.1.1 逻辑模型的基本思想 129
5.1.2 逻辑模型的建构方法 130
5.2 古典逻辑与古典逻辑模型 131
5.2.1 古典逻辑 131
5.2.2 古典逻辑模型 133
5.3 van Rijsbergen的非古典逻辑模型 134
5.3.1 逻辑蕴涵模型 134
5.3.2 不确定性原理 136
5.4 逻辑蕴涵程度的测算 140
5.4.1 逻辑蕴涵程度测算方法 140
5.4.2 向量空间模型的测算 142
5.4.3 布尔模型的测算 143
5.4.4 概率模型的测算 144
5.5 信息检索逻辑模型 145
5.5.1 基于可能世界的逻辑模型 145
5.5.2 基于情景理论的信息检索模型 148
5.5.3 基于术语逻辑的信息检索模型 150
5.5.4 信息检索的元模型 153
5.5.5 信息检索逻辑模型的特征 156
6 自动分类 160
6.1 引言 160
6.2 基本概念 161
6.2.1 定义 161
6.2.2 分类 162
6.2.3 应用 163
6.2.4 训练集与测试集 165
6.3 特征选取 166
6.3.1 预处理 166
6.3.2 标引 167
6.4 降维技术 170
6.4.1 特征选择 170
6.4.2 特征重构 175
6.5 分类方法 178
6.5.1 Rocchio's算法及改进 178
6.5.2 朴素贝叶斯分类方法 180
6.5.3 K最近邻算法 183
6.5.4 决策树方法 185
6.5.5 支持向量机 193
6.5.6 基于投票的方法 196
6.6.1 多重二元分类任务 198
6.6 文档分类的评估指标 198
6.6.2 多重分类和多重标识分类 200
7 聚类 201
7.1 聚类检索 201
7.1.1 聚类策略 202
7.1.2 检索步骤 203
7.2 文献相似度 203
7.2.1 距离 204
7.2.2 相似系数 204
7.2.3 基于提问式的文献相似度 205
7.3 层次聚类法 206
7.3.1 合成聚类法 207
7.3.2 分解聚类法 218
7.4 启发式聚类法 219
7.4.1 密度测试法 219
7.4.2 线性时间法 220
7.5 增量式聚类法 222
7.5.1 单遍聚类法 222
7.5.2 后缀树法 222
7.6 聚类浏览 229
7.6.1 聚类浏览概述 229
7.6.2 聚类浏览算法 230
8 自动文摘 232
8.1 语料库 232
8.1.1 语料库的分类 233
8.1.2 语料库的设计与建设 233
8.1.3 语料库的研究方法 234
8.1.4 概率论基础知识 236
8.1.5 Ngram语法 237
8.2.1 自动分词 238
8.2 词法分析 238
8.2.2 歧义切分 242
8.2.3 未登录词 244
8.2.4 词性标注 244
8.3 句法分析 245
8.3.1 句法分析中的知识表示 245
8.3.2 句法分析算法 258
8.4 自动摘录 268
8.4.1 自动摘录的步骤 268
8.4.2 自动摘录的不足 271
8.5 基于理解的自动文摘 272
8.5.1 基本步骤 272
8.5.2 篇章意义的机内表示 273
8.5.3 理解文摘的不足 274
8.6 信息抽取 275
8.6.1 信息抽取研究的发展历史 275
8.6.3 命名实体识别 276
8.6.2 信息抽取系统的体系结构 276
8.7 基于结构的自动文摘 278
8.7.1 关联网络 278
8.7.2 修辞结构 278
8.7.3 语用功能 279
8.8 文摘评估方法 279
8.8.1 直接评价方法 279
8.8.2 基于任务的评价方法 281
8.8.3 基于目标的评估方法 282
8.9 自动文摘研究所取得的成绩和面临的问题 284
9 查询扩展和精化 286
9.1 查询扩展和精化概述 286
9.1.1 查询扩展和精化的意义 286
9.1.2 查询扩展的类型 287
9.2.1 相关反馈技术介绍 288
9.2 相关反馈技术 288
9.2.2 向量空间模型中的相关反馈 292
9.2.3 概率模型中的相关反馈 297
9.2.4 布尔模型中的相关反馈 302
9.2.5 相关反馈技术的改进 305
9.3 查询检索词选择方案 308
9.3.1 检索词选择概述 308
9.3.2 自动查询扩展中的检索词选择 309
9.3.3 交互式查询扩展中的检索词选择方法 313
9.4 词表扩展技术 315
9.4.1 人工词表WordNet 316
9.4.2 自动构建词表 317
9.5 整体分析技术和局部分析技术 318
9.5.1 整体分析技术 319
9.5.2 局部分析技术 328
9.6 查询的重用 335
9.6.1 steepest descent算法 336
9.6.2 查询相似度计算 337
10 相关性 341
10.1 相关性的研究历史 341
10.1.1 第一阶段的研究 342
10.1.2 第二阶段的研究 343
10.1.3 第三阶段的研究 347
10.2 相关性研究的学派 352
10.2.1 面向系统的相关性 353
10.2.2 面向用户的相关性 356
10.2.3 结论 359
10.3 相关性模型 360
10.3.1 相关性模型:其他学科的视角 360
10.3.2 相关性模型:信息科学的视角 361
10.4 属性与类别 368
10.4.1 基本属性 368
10.4.2 类别 369
10.4.3 属性与类别的关系 371
10.4.4 属性与类别之间关系的修正 376
11 Z39.50检索标准 378
11.1 Z39.50标准概述 378
11.2 Z39.50标准的起源 379
11.2.1 与Z39.50标准相关机构与标准制定过程 379
11.2.2 标准的沿革 380
11.2.3 版本间的关系 381
11.3 Z39.50的功能 381
11.3.1 建立虚拟联合目录 382
11.3.2 联合编目 382
11.3.3 馆际互借 383
11.3.4 光盘检索 383
11.3.5 定题服务 383
11.4 Z39.50的工作原理 384
11.4.1 Z39.50的运行机制 384
11.3.6 万维网检索和信息过滤 384
11.4.2 Z39.50的实现模型 385
11.4.3 Z39.50源端和目标端的主要功能 387
11.5 Z39.50协议简介 396
11.5.1 Z39.50协议的信息检索服务 396
11.5.2 Z39.50协议说明 417
11.6 下一代Z39.50 424
12 Web信息检索工具——搜索引擎 427
12.1 搜索引擎的工作原理与结构 427
12.1.1 信息采集 428
12.1.2 信息标引 429
12.1.3 索引数据库 430
12.1.4 信息检索 432
12.2 搜索引擎的分类 433
12.2.1 目录式搜索引擎 433
12.2.3 元搜索引擎 435
12.2.2 Robot搜索引擎 435
12.2.4 智能搜索引擎 438
12.3 搜索引擎的检索功能 441
12.3.1 基本检索功能 442
12.3.2 高级检索功能 444
12.3.3 与检索相关的功能 445
12.4 信息采集Robot的实现 447
12.4.1 Robot的组成模块 447
12.4.2 Robot的搜索算法 448
12.4.3 Robot的遍历策略 449
12.4.4 Robot的专用协议 451
12.4.5 Robot优化策略 452
12.5 搜索引擎的发展 453
12.5.1 第一代搜索引擎——基于关键词的检索 453
12.5.2 第二代搜索引擎——基于超链接的检索 455
12.5.3 第三代搜索引擎——基于概念的检索 458
参考文献 463
- 《钒产业技术及应用》高峰,彭清静,华骏主编 2019
- 《管理信息系统习题集》郭晓军 2016
- 《现代水泥技术发展与应用论文集》天津水泥工业设计研究院有限公司编 2019
- 《异质性条件下技术创新最优市场结构研究 以中国高技术产业为例》千慧雄 2019
- 《Prometheus技术秘笈》百里燊 2019
- 《中央财政支持提升专业服务产业发展能力项目水利工程专业课程建设成果 设施农业工程技术》赵英编 2018
- 《药剂学实验操作技术》刘芳,高森主编 2019
- 《林下养蜂技术》罗文华,黄勇,刘佳霖主编 2017
- 《脱硝运行技术1000问》朱国宇编 2019
- 《催化剂制备过程技术》韩勇责任编辑;(中国)张继光 2019
- 《断陷湖盆比较沉积学与油气储层》赵永胜等著 1996
- 《市政工程基础》杨岚编著 2009
- 《家畜百宝 猪、牛、羊、鸡的综合利用》山西省商业厅组织技术处编著 1959
- 《《道德经》200句》崇贤书院编著 2018
- 《高级英语阅读与听说教程》刘秀梅编著 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《看图自学吉他弹唱教程》陈飞编著 2019
- 《法语词汇认知联想记忆法》刘莲编著 2020
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《国家社科基金项目申报规范 技巧与案例 第3版 2020》文传浩,夏宇编著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《《走近科学》精选丛书 中国UFO悬案调查》郭之文 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《中医骨伤科学》赵文海,张俐,温建民著 2017
- 《美国小学分级阅读 二级D 地球科学&物质科学》本书编委会 2016
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《强磁场下的基础科学问题》中国科学院编 2020
- 《小牛顿科学故事馆 进化论的故事》小牛顿科学教育公司编辑团队 2018
- 《小牛顿科学故事馆 医学的故事》小牛顿科学教育公司编辑团队 2018
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019