信息检索 算法与启发式方法 第2版PDF电子书下载
- 电子书积分:10 积分如何计算积分?
- 作 者:(美)格罗斯曼,(美)弗里德著
- 出 版 社:北京:人民邮电出版社
- 出版年份:2010
- ISBN:9787115235756
- 页数:232 页
第1章 引言 1
第2章 检索模型与算法 7
2.1 向量空间模型 8
2.1.1 相似度计算举例 11
2.1.2 相似度 13
2.2 概率检索模型 14
2.2.1 简单的词项权重 15
2.2.2 非二值独立模型 24
2.2.3 泊松模型 25
2.2.4 文档片段 29
2.2.5 概率模型的关键问题 30
2.3 语言模型 32
2.3.1 平滑 33
2.3.2 语言模型举例 34
2.4 推理网络 40
2.4.1 相关背景 41
2.4.2 链接矩阵 42
2.4.3 相关性排序 44
2.4.4 推理网络实例 45
2.5 扩展布尔检索 47
2.5.1 引入查询权重 48
2.5.2 扩展为任意数量的查询词 48
2.5.3 自动插入布尔逻辑 49
2.6 LSI 49
2.6.1 LSI举例 50
2.6.2 选择较优的k值 52
2.6.3 与其他检索模型比较 52
2.6.4 可能的扩展 52
2.6.5 运行时性能 52
2.7 神经网络 52
2.7.1 向量空间 53
2.7.2 相关反馈 53
2.7.3 学习与调整 54
2.7.4 概率检索 54
2.7.5 基于片段的概率检索 55
2.7.6 联合权重 55
2.7.7 文档聚类 56
2.8 遗传算法 56
2.8.1 文档表示形式 58
2.8.2 查询权重的自动赋值 58
2.8.3 自动生成带权重的布尔查询 59
2.9 模糊集检索 59
2.9.1 布尔检索 60
2.9.2 使用概念层次 62
2.9.3 采用区间和提升效率 62
2.10 本章小结 63
2.11 练习题 64
第3章 检索实用策略 65
3.1 相关反馈 66
3.1.1 基于向量空间模型的相关反馈 67
3.1.2 基于概率模型的相关反馈 68
3.2 聚类 73
3.2.1 结果集聚类 74
3.2.2 层次聚类 74
3.2.3 不采用预定义矩阵的聚类方法 75
3.2.4 在层次聚类结果中进行查询 77
3.2.5 效率方面 77
3.3 基于段落的检索 78
3.3.1 基于标记的段落划分方法 78
3.3.2 动态段落划分方法 79
3.3.3 合并基于段落的相似度 79
3.4 n元语法 80
3.4.1 D'Amore与Mah方法 80
3.4.2 Damashek算法 81
3.4.3 Pearce与Nicholas方法 81
3.4.4 Teufel 81
3.4.5 Cavnar和Vayda 82
3.5 回归分析 82
3.6 同义词表 84
3.6.1 自动构建同义词表 84
3.6.2 使用人工构建的同义词表 90
3.7 语义网络 91
3.7.1 距离计算方法 92
3.7.2 基于“概念”扩展查询词 95
3.7.3 基于约束激活扩散的排序 95
3.8 语言解析 96
3.8.1 单个词 96
3.8.2 简单短语 97
3.8.3 复杂短语 97
3.9 本章小结 100
3.10 练习 100
第4章 CLIR 102
4.1 简介 102
4.1.1 资源 102
4.1.2 评测 103
4.2 跨越语言障碍 103
4.2.1 查询翻译 104
4.2.2 文档翻译 105
4.2.3 短语翻译 105
4.2.4 译文的选择 105
4.2.5 翻译删减技术 107
4.3 跨语言检索模型与算法 107
4.3.1 CLIR中的语言模型 107
4.3.2 双语语料库方法 112
4.3.3 可比语料库方法 113
4.4 跨语言检索实用策略 117
4.4.1 跨语言检索的相关反馈 117
4.4.2 词干还原 118
4.4.3 n元语法模型 120
4.4.4 音译名 120
4.4.5 命名实体识别 121
4.4.6 检索融合 122
4.5 本章小结 122
4.6 练习题 123
第5章 检索效率优化 124
5.1 倒排索引 124
5.1.1 构建倒排索引 126
5.1.2 压缩倒排索引 127
5.1.3 变长索引压缩 129
5.1.4 基于倒排表大小的变长压缩 130
5.1.5 索引剪枝 132
5.1.6 在构建索引前对文档重新排序 132
5.2 查询处理 133
5.2.1 倒排索引的修订 133
5.2.2 部分结果集检索 134
5.2.3 简化向量空间 135
5.3 签名文件 136
5.4 重复文档检测 138
5.4.1 精确重复检测 139
5.4.2 近似重复检测 139
5.5 本章小结 141
5.6 练习题 142
第6章 结构化数据与文本的融合 143
6.1 关系模型回顾 145
6.2 相关工作进展 150
6.2.1 独立系统的融合 150
6.2.2 自定义运算符 151
6.2.3 NFN方法 152
6.2.4 使用标准SQL进行文献搜索 153
6.3 信息检索作为关系应用 153
6.3.1 预处理 155
6.3.2 实施案例 156
6.3.3 布尔检索 158
6.3.4 邻近搜索 161
6.3.5 使用标准SQL计算相关度 162
6.3.6 相关反馈在关系模型中的实现 164
6.3.7 关系信息检索系统 164
6.4 使用关系模式进行半结构化搜索 165
6.4.1 背景 165
6.4.2 使用静态关系模式支持XML-QL 165
6.4.3 存储XML元数据 166
6.4.4 跟踪XML文档 167
6.4.5 INDEX关系 167
6.5 多维数据模型 168
6.6 协同器 168
6.6.1 因特网协同器 168
6.6.2 内联网协同器 169
6.7 本章小结 171
6.8 练习题 171
第7章 并行信息检索 172
7.1 并行文本扫描搜索 172
7.1.1 文本硬件扫描 173
7.1.2 并行签名文件 174
7.2 并行索引 176
7.2.1 在连接机上实现并行索引 176
7.2.2 连接机的倒排索引 178
7.2.3 在DAP上实现并行索引 179
7.2.4 并行索引划分 179
7.2.5 在CM-5机上实现并行倒排索引算法 180
7.2.6 在倒排表上执行布尔操作 180
7.2.7 作为RDBMS应用的并行检索 180
7.2.8 并行索引小结 181
7.3 聚类与分类 181
7.4 大型的并行信息检索系统 182
7.4.1 PADRE 182
7.4.2 并行信息检索框架 182
7.4.3 PLIERS 182
7.5 本章小结 183
7.6 练习题 184
第8章 分布式信息检索 185
8.1 分布式检索的理论模型 186
8.1.1 集中式信息检索系统模型 186
8.1.2 分布式信息检索系统模型 187
8.2 Web搜索 189
8.2.1 Web搜索引擎评测 189
8.2.2 高准确率检索 189
8.2.3 查询日志分析 190
8.2.4 PageRank算法 190
8.2.5 Web搜索引擎的效果提升 191
8.3 结果融合 191
8.4 P2P信息系统 192
8.5 其他的体系结构 194
8.5.1 共享磁盘体系结构 195
8.5.2 分布式磁盘体系结构 195
8.6 本章小结 195
8.7 练习题 195
第9章 总结与下一步研究方向 197
参考文献 203
索引 229
- 《中风偏瘫 脑萎缩 痴呆 最新治疗原则与方法》孙作东著 2004
- 《管理信息系统习题集》郭晓军 2016
- 《信息系统安全技术管理策略 信息安全经济学视角》赵柳榕著 2020
- 《基于地质雷达信号波的土壤重金属污染探测方法研究》赵贵章 2019
- 《第一性原理方法及应用》李青坤著 2019
- 《数学物理方法与仿真 第3版》杨华军 2020
- 《Helmholtz方程的步进计算方法研究》李鹏著 2019
- 《ESG指标管理与信息披露指南》管竹笋,林波,代奕波主编 2019
- 《土壤环境监测前沿分析测试方法研究》中国环境监测总站编著 2018
- 《大学计算机信息技术教程 2018版》张福炎 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《办好人民满意的教育 全国教育满意度调查报告》(中国)中国教育科学研究院 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《人民院士》吴娜著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《中国人民的心》杨朔著;夕琳编 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《中华人民共和国成立70周年优秀文学作品精选 短篇小说卷 上 全2册》贺邵俊主编 2019
- 《指向核心素养 北京十一学校名师教学设计 数学 九年级 上 配人教版》周志英总主编 2019
- 《中华人民共和国成立70周年优秀文学作品精选 中篇小说卷 下 全3册》洪治纲主编 2019