目录 1
前言 1
第一章 引言 1
1.1 知识记录的增长 1
1.2 情报检索学科 4
1.3 计算机学习与自适应系统 9
1.4 计算机标识的意义 10
1.5 文献检索,图书馆自动化和文件的保密 12
第二章 一般概念 13
2.1 文献数据库和数据的选择提供 13
2.2 符号化缩写 15
2.3 图书馆数据库 19
2.4 数字数据库 21
2.5 管理情报系统 21
2.6 题内关键词和题外关键词索引 22
2.7 布尔检索 26
2.8 倒排索引与双套字典 27
2.9 查准率和查全率 32
2.10 词表 35
2.11 与属性有关的术语和词汇 39
2.12 机械化情报系统的组成部分 41
2.13 按字母顺序排列的约定 42
2.14 思考题 44
第三章 计算机检索用的文献数据库 45
3.1 磁带存储与磁盘存储 45
3.2 数据存储的位代码 48
3.3 数据块,记录和字域 54
3.4 固定长和可变长字域、标记、目录表 57
3.5 标记字域的示例——METADEX磁带 62
3.6 固定长标记字域的示例——COMPENDEX磁带 65
3.7 带非符号标记的字域示例——ERIC(AIM/ARM)磁带 68
3.8 标有标记的字域和子字域示例——SPIN磁带 71
3.9 目录表示例——CAIN磁带 77
3.10 磁带目录表的示例——MARC磁带 84
3.11 文献数据库的制备 90
3.12 思考题 93
第四章 提问逻辑与格式 95
4.1 概述 95
4.2 截断的说明 97
4.3 比较和终端模式 99
4.4 布尔算符AND,OR,NOt,WITh 100
4.5 忽略的说明 103
4.6 邻接与前接 104
4.7 加权概念 108
4.8 定义术语 111
4.9 提问语法的形式化说明 113
4.10 提问表达式的自由格式 115
4.11 输出格式的用户说明 118
4.12 字符意义和特殊用途的说明 119
4.13 思考题 125
第五章 存储和检索的数据结构 126
5.1 一般原理 126
5.2 排序树的结构 130
5.3 采用字符树的词典存储 140
5.4 考虑到截断说明的表结构 144
5.5 几种排序的算法 149
5.6 倒排文件的结构 156
5.7 散列存储 162
5.8 栈结构 169
5.9 排队的表示法 174
5.10 表存储结构 175
5.11 动态存储 183
5.12 思考题 185
第六章 查找程序的结构 187
6.1 成批提问的顺序查找 187
6.2 “与”参数中的单嵌套“或”逻辑 192
6.3 通过逻辑栈进行的提问处理 198
6.4 采用逻辑树的提问处理 202
6.5 采用倒排文件的提问处理 207
6.6 思考题 208
第七章 文献数据库的词汇特性 213
7.1 查找时间与词汇特性的关系 213
7.2 词汇的频率 215
7.3 词的长度分布 227
7.4 字符的频率分布 231
7.5 词汇量的增长 239
7.6 思考题 242
第八章 信息论的研究 243
8.1 正文数据的信息量 243
8.2 有约束条件的消息的信息量 253
8.3 检索系统的信息增益 258
8.4 压缩信息存储量的Huffman代码 262
8.5 思考题 265
第九章 数据库的编码和压缩 266
9.1 受限的可变长词代码 266
9.2 基于偏码的杂凑存储 271
9.3 编码的正文片段 275
9.4 正文的部分编码 282
9.5 用略语进行词的压缩 283
9.6 思考题 286
第十章 文献检索系统的设计举例 287
10.1 功能说明 287
10.2 变换磁带格式 290
10.3 数据库的统计估计 291
10.4 可能的文件结构 293
10.5 文件的更新过程 297
10.6 词典的结构 299
10.7 思考题 304
第十一章 文献标引和词的结合 306
11.1 用标引词表示文献 306
11.2 标引词的选择 306
11.3 文献原文中词的相对频率 314
11.4 文献的词和词的联接矩阵 326
11.5 词和文献的结合矩阵 332
11.6 通过存储结合、引文索引进行情报检索 338
11.7 思考题 340
12.1 与结合矩阵相关的权和响应向量 341
第十二章 提问的自动修正 341
12.2 通过结合反馈进行提问的自动修正 346
12.3 检索效率的最优化 349
12.4 均方根检索的进一步讨论 356
12.5 思考题 358
第十三章 文献自动分类 359
13.1 按类目进行文献分类 359
13.2 属性分析 360
13.3 自动选择类目 366
13.4 叙词标引的意义 368
13.5 分类的测量或检索的一致性 378
13.6 思考题 384
第十四章 结论 385
14.1 现有方法的局限性 385
14.2 硬件方面 387
14.3 理论基础 388