搜索引擎与信息获取技术PDF电子书下载
- 电子书积分:11 积分如何计算积分?
- 作 者:徐宝文,张卫丰著
- 出 版 社:北京:清华大学出版社
- 出版年份:2003
- ISBN:7302061351
- 页数:266 页
第1章 概述 1
1.1 引言 1
1.2 信息获取与数据获取 2
1.3 信息获取技术的发展 3
1.4 信息获取基本概念 4
1.5 信息获取系统的过去、现在和将来 5
1.6 信息获取的过程 6
1.7 本书的结构 7
1.8 本章小结 10
第2章 信息获取模型 11
2.1 引言 11
2.2 布尔模型 11
2.3 向量模型 12
2.4 概率论模型 14
2.5 神经网络模型 16
2.6 基于命题逻辑的模型及其应用 18
2.6.1 基本概念不相交及其与向量模型的关系 19
2.6.2 基本概念相交及其与布尔模型的关系 21
2.7 本章小结 23
第3章 标记语言与文本操作 24
3.1 引言 24
3.2 标记语言 24
3.2.1 HTML语言 25
3.2.2 XML语言 26
3.3 文本预处理 29
3.3.1 文本的词法分析 30
3.3.2 中文分词技术 31
3.3.4 词干提取技术 32
3.3.3 无用词汇的删除 32
3.3.5 索引词条的选择 37
3.3.6 词典 37
3.4 文档聚类 38
3.5 文本压缩 39
3.5.1 基本概念 39
3.5.2 统计方法 40
3.5.3 字典方法 41
3.5.4 倒排文件压缩 42
3.5.5 文本压缩方法比较 44
3.6 本章小结 45
第4章 索引和搜索 46
4.1 引言 46
4.2 倒排文件 47
4.2.1 倒排文件的搜索 48
4.2.2 倒排文件的构造 49
4.3 后缀树与后缀数组 50
4.4 布尔查询 52
4.5 顺序查询 53
4.6 结构化查询 54
4.7 对压缩文本的搜索 55
4.8 模式匹配 56
4.8.1 容错匹配 56
4.8.2 正规表达式和扩展模式 56
4.8.3 利用索引进行模式匹配 57
4.9 本章小结 58
第5章 信息获取系统评价 59
5.1 引言 59
5.2 相关性 60
5.3 召回率和精度 61
5.3.1 召回率与精度的计算 61
5.3.2 汇聚技术 62
5.4 复合度量 64
5.5 本章小结 65
第6章 查询处理 66
6.1 引言 66
6.2 基于用户反馈信息的查询扩展 66
6.2.1 向量模型的查询扩展和词条权重重新计算 67
6.2.2 概率论模型中的词条权重重新计算 69
6.3 自动局部分析 71
6.3.1 通过局部聚集进行查询扩展 71
6.3.1.1 关联聚集 72
6.3.1.2 距离聚集 73
6.3.1.3 标量聚集 74
6.3.1.4 搜索表达式的改变 75
6.3.2 通过局部上下文分析进行查询扩展 76
6.4 自动全局分析 78
6.4.1 基于相似词典的查询扩展 78
6.4.2 基于统计词典的查询扩展 80
6.5 本章小结 82
第7章 目录式检索服务与聚类分析 83
7.1 引言 83
7.2 目录检索服务的构成 84
7.2.1 网页采集过程 84
7.2.2 网页分类方法 85
7.3.1.1 相似度 86
7.3.1 文档关联度的衡量 86
7.3 聚类过程 86
7.3.1.2 相异度 87
7.3.2 文档聚类 88
7.3.2.1 基于相似度的分类过程 88
7.3.2.2 基于相异度的分类过程 92
7.4 基于聚类的信息获取 94
7.5 本章小结 94
第8章 基于因特网的搜索引擎 95
8.1 引言 95
8.2 基于因特网的搜索引擎的构成 97
8.3 搜索引擎的主要指标及其分析 98
8.3.1 搜索引擎的精度 99
8.3.2 搜索引擎受欢迎的程度 100
8.3.3 搜索引擎相关性考虑 101
8.4 搜索引擎的数据结构 102
8.4.1 Bigfile文件系统 103
8.4.2 信息库 103
8.4.3 文本索引 104
8.4.4 词典 104
8.4.5 采样表 104
8.4.6 前向索引 105
8.4.7 后向索引 106
8.5 网页的获取 107
8.6 建立索引的方法和过程 108
8.6.1 搜索引擎建立索引的方法 108
8.6.2 索引的过程 111
8.7 搜索过程 112
8.8 搜索结果排序方法 112
8.9 搜索引擎的发展趋势 116
8.10 本章小结 118
第9章 元搜索引擎 120
9.1 引言 120
9.2 基本构成 120
9.3 元搜索引擎分类 122
9.4 与独立搜索引擎的比较 124
9.5 主要指标及其分析 126
9.6 元搜索引擎面临的问题、对策和发展趋势 129
9.6.1 查询预处理 131
9.6.2 搜索结果集成 132
9.7 元搜索引擎调度策略研究 134
9.7.1 GSE基本思想 134
9.7.2 遗传算法在元搜索引擎调度中的应用 135
9.7.2.1 编码方法 136
9.7.2.2 适应函数和选择 137
9.7.2.3 初始化种群 139
9.7.2.4 重组 139
9.7.2.5 变异 140
9.7.3 GSE中的智能调度器 141
9.7.4 实验——自适应过程运行周期的确定 142
9.8 文档选择 143
9.8.1 用户决定法 145
9.8.2 权重分配法 145
9.8.3 基于学习的方法 146
9.8.4 确保取回法 147
9.9 结果归并 150
9.9.1 基本定义 150
9.9.2.1 几种常用元搜索引擎结果集成方法及其存在问题 152
9.9.2 元搜索引擎结果集成方法 152
9.9.2.2 摘要排序法 153
9.9.2.3 位置排序法 154
9.9.2.4 摘要/位置排序法 155
9.9.3 搜索结果集成技术比较 155
9.9.4 实验分析 157
9.9.5 元搜索引擎搜索结果集成技术展望 158
9.10 元搜索引擎可扩展性 159
9.10.1 XML与XSL语言 160
9.10.2 可扩展元搜索引擎的基本结构 161
9.10.3 元查询映射 163
9.10.4 结果归并 166
9.10.5 搜索引擎接入元搜索引擎的过程 171
9.11 本章小结 172
10.1 利用代理个性化搜索结果 173
第10章 基于客户端的个性化应用研究 173
10.1.1 用户兴趣模型 174
10.1.1.1 个性化信息抽取与兴趣生成树 174
10.1.1.2 词干抽取与信息预处理 176
10.1.1.3 用户个人兴趣模型 177
10.1.1.4 共同兴趣模型 178
10.1.2 个性化搜索代理系统PSA 180
10.1.2.1 用户个人兴趣代理 180
10.1.2.2 共同兴趣代理 181
10.1.2.3 利用兴趣剖像过滤搜索结果 182
10.1.3 工作流程 182
10.1.4 性能分析 183
10.2 数据挖掘技术在Web预取中的应用研究 184
10.2.1 简化WWW数据模型 185
10.2.2 兴趣关联知识库与用户行为预测 187
10.2.3 数据挖掘技术 190
10.2.4 基于代理的Web预取技术 193
10.2.5 实例研究 195
10.3 本章小结 196
第11章 基于服务器端的个性化应用研究 198
11.1 引言 198
11.2 带反馈自适应搜索引擎系统 199
11.3 数据采集与反馈信息库的生成 200
11.3.1 数据采集 200
11.3.2 反馈信息库的生成及其算法 202
11.4 反馈响应过程 205
11.5.1 一个实验性带反馈自适应搜索引擎ASE 207
11.5 自适应搜索引擎系统原型设计与实验 207
11.5.2 实验 208
11.6 本章小结 211
第12章 搜索引擎策略——站点角度 212
12.1 引言 212
12.2 提高网站在搜索引擎中的排名位置的方法 213
12.2.1 了解不同的搜索引擎 213
12.2.2 关键词的选择 214
12.2.3 标题 217
12.2.4 Meta值的使用 217
12.2.5 提升自己网站排名的技巧 220
12.2.5.1 隐藏的表单input 220
12.3 如何提交自己的网站 221
12.3.1 提交工具 221
12.2.5.2 不可见关键词堆砌 221
12.3.2 如何跟踪 222
12.4 阻止网络检索器索引网页 222
12.4.1 阻止网络检索器的方法 223
12.4.2 文件Robots.txt的格式 224
12.4.3 Robots.txt使用实例分析 225
12.5 本章小结 226
第13章 搜索引擎策略——用户角度 227
13.1 引言 227
13.2 数学命令在搜索中应用 229
13.2.1 查询条件具体化 229
13.2.2 使用加号+ 229
13.2.3 使用减号- 230
13.2.4 使用引号“” 230
13.2.5 组合符号 231
13.3 增强的搜索命令 232
13.3.1 搜索标题 232
13.3.2 搜索网站 233
13.3.3 百搭命令(?) 233
13.4 搜索引擎的辅助功能 234
13.4.1 相关搜索 234
13.4.2 搜索结果重组 237
13.4.3 相近搜索 239
13.4.4 延伸搜索条件 241
13.5 搜索引擎功能特点分析图表 242
13.6 本章小结 245
附录1 搜索引擎导航 246
附录2 术语 250
参考文献 252
- 《数据空间中基于语义的实体搜索》杨丹著 2019
- 《SEO搜索引擎优化 基础、案例与实战 第2版》杨韧 2020
- 《自己动手做推荐引擎》(印)苏雷什·库马尔·戈拉卡拉(Suresh Kumar Gorakala)著 2020
- 《黄帝思想与中华引擎 2》廖凯原主编 2018
- 《2016届高考引擎·破釜沉舟》高考引擎编委会主编 2016
- 《2016届高考引擎·志在必得》高考引擎编委会主编 2016
- 《开放获取数字化文献资源研究》辛海霞著 2017
- 《培训引擎 卓越培训十步法》(美)Elaine Biech 2018
- 《汽车电工电子基础》杨俊莲主编;张涛副主编 2012
- 《元气星魂百变机兽系列 迷宫大搜索 寻找星魂石》谭树辉编著 2013
- 《激光加工实训技能指导理实一体化教程 下》王秀军,徐永红主编;刘波,刘克生副主编 2017
- 《危险化学品经营单位主要负责人和安全生产管理人员安全培训教材》李隆庭,徐一星主编 2012
- 《商务英语口译教程 第3版》朱佩芬,徐东风编著 2017
- 《钢渣梯级利用技术》徐国平,黄毅,程慧高,万迎峰,林路 2016
- 《赵孟俯临淳化阁帖》柴敏责任编辑;孙宝文 2019
- 《光荣时代》(中国)魏人,张卫华 2019
- 《哲学与人生》梁琦,徐海峰主编 2019
- 《建国方略》张卫波 2019
- 《没有疼痛的身体》杨晓晨责任编辑;秦秋林,张卫彤译;(法国)克里斯多夫·卡里奥 2019
- 《面向工程教育的本科计算机类专业系列教材 普通高等教育“十一五”国家级规划教材 计算机网络 第3版》胡亮,徐高潮,魏晓辉,车喜龙编 2018
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019