搜索引擎 原理技术与系统 第2版PDF电子书下载
- 电子书积分:12 积分如何计算积分?
- 作 者:李晓明,闫宏飞,王继民著
- 出 版 社:北京:科学出版社
- 出版年份:2012
- ISBN:7030342585
- 页数:330 页
第一章 引论 1
第一节 搜索引擎的概念 2
第二节 搜索引擎的发展历史 3
第三节 一些著名的搜索引擎 6
第四节 小结 11
上篇 Web搜索引擎基本原理和技术第二章 Web搜索引擎工作原理和体系结构 15
第一节 基本要求 15
第二节 网页搜集 16
第三节 预处理 18
第四节 查询服务 20
第五节 体系结构 23
第六节 小结 25
第三章 Web信息的搜集 26
第一节 概述 26
一、超文本传输协议 26
二、一个小型搜索引擎系统 27
第二节 网页搜集 30
一、定义URL类和Page类 31
二、与服务器建立连接 35
三、发送请求和接收数据 37
四、网页信息存储的天网格式 38
第三节 多道搜集程序并行工作 40
一、多线程并发工作 41
二、控制对一个站点并发搜集线程的数目 42
第四节 如何避免网页的重复搜集 43
一、记录未访问、已访问URL和网页内容摘要信息 43
二、域名与IP的对应问题 43
第五节 搜集信息的类型 45
第六节 小结 46
第四章 对搜集信息的预处理 47
第一节 索引网页库 47
第二节 网页编码识别 50
一、基本而重要的概念 50
二、常用字符编码 52
三、常用字符编码算法 55
四、字符的输入和显示 57
五、编码识别 58
第三节 中文自动分词 60
第四节 分析网页和建立倒排文件 64
第五节 小结 67
第五章 信息查询服务 68
第一节 检索的定义 68
第二节 查询服务的实现 69
一、结果集合的形成 69
二、查询结果显示 70
第三节 小结 71
中篇 对质量和性能的追求 75
第六章 可扩展搜集子系统 75
第一节 天网系统概述和集中式搜集系统结构 75
一、天网系统结构 75
二、集中式搜集系统 76
第二节 利用并行处理技术高效搜集网页的一种方案 82
一、节点间URL的划分策略 82
二、关于性能的讨论 85
三、性能测试和评价 87
四、系统的动态可配置性设计 90
第三节 天网分布式搜集系统 92
第四节 对Deep Web的认识 93
一、Deep Web的成因 93
二、搜索Deep Web的方法 96
第五节 小结 98
第七章 网页净化与消重 100
第一节 网页净化与元数据提取 100
一、DocView模型 102
二、网页的表示 103
三、提取DocView模型要素的方法 108
四、模型应用及实验研究 112
第二节 网页消重算法 115
一、消重算法 116
二、算法评测 118
第三节 小结 121
第八章 高性能检索子系统 122
第一节 检索系统基本技术 122
一、系统设计与结构 122
二、索引创建 125
三、检索过程 127
第二节 适于查询的网页索引结构 129
一、倒排索引结构 129
二、平面位置索引 131
第三节 倒排索引压缩 135
一、倒排索引压缩技术 136
二、词典与倒排表的压缩 142
第四节 索引剪枝 150
一、静态索引剪枝方法 151
二、动态索引剪枝方法 153
第五节 混合索引技术 168
一、混合索引的原理 169
二、混合索引的实现 171
第六节 倒排文件缓存机制 173
一、倒排文件缓存 174
二、负载特性 176
三、缓存策略的选择 178
第七节 小结 178
第九章 相关排序与系统质量评估 180
第一节 传统IR的相关排序技术 180
第二节 链接分析与相关排序 182
一、链接分析 182
二、Web查询模式下的新信息 184
第三节 相关排序的一种实现方案 188
一、形成网页中词项的基本权重 189
二、利用链接的结构 190
三、收集用户反馈信息 192
四、计算最终的权重 194
第四节 信息检索技术评估 195
一、信息检索技术评估指标 197
二、TREC和CWIRF信息检索评估 206
三、搜索引擎技术评估 213
第五节 小结 217
下篇 Web信息资源的组织与应用服务第十章 大规模Web历史网页仓储系统的构建 221
第一节 国外Web历史网页保存现状 221
一、Internet Archive 222
二、PANDORA 222
三、其他相关Web保存项目 223
第二节 中国Web信息博物馆的系统设计 224
一、Web InfoMall的设计目标 225
二、Web InfoMall的体系结构 225
第三节 历史网页的存储 227
一、数据的组织 228
二、存储结构 229
三、数据管理与压缩 230
四、存储性能 232
第四节 数据访问 232
一、PageID的索引 233
二、URL的索引 233
三、数据服务 234
四、性能与优化 235
第五节 网页的格式保存 236
第六节 小结 236
第十一章 大规模Web非网页信息仓储系统的构建 238
第一节 网络资源库藏相关工作 238
一、Ibiblio 239
二、Internet Archive 240
三、Wikimedia 240
四、中国互联网数字资源财富库藏 241
第二节 CDAL系统概况 242
第三节 CDAL系统设计 244
一、系统体系结构 244
二、可扩展的存储组织方案 244
第四节 网络资源描述信息获取 246
一、Ontology概述 247
二、描述信息获取机制 247
三、改进查询的方法 248
四、改进排序的方法 249
第五节 基于局部聚类思想的共现词汇算法 250
一、基本定义 251
二、FDC共现词汇算法 251
第六节 小结 252
第十二章 中文网页自动分类与聚类 253
第一节 文档自动分类算法的类型 253
第二节 实现中文网页自动分类的一般过程 254
第三节 影响分类器性能的关键因素分析 256
一、实验设置 256
二、训练样本 258
三、特征选取 262
四、分类算法 265
五、截尾算法 270
六、中文网页分类器的设计方案 272
第四节 天网目录导航服务 272
一、问题的提出 272
二、天网目录导航服务的体系结构 273
三、天网目录的运行实例 274
第五节 文本聚类方法 275
一、文本聚类的一般过程 275
二、文本间相似性的度量 276
三、常用聚类算法 276
四、聚类结果的评估 279
五、搜索引擎返回结果的聚类 280
第六节 小结 281
第十三章 开放域问答系统 283
第一节 概述 283
一、问答系统的历史 283
二、著名开放域问答系统介绍 284
三、开放域问答系统的通用体系结构 285
第二节 问句的分析 287
一、问句中的指代消解 287
二、问句分类 288
三、问句主题提取 290
第三节 文档和段落检索 290
一、检索模型的选用 291
二、查询生成 291
三、查询结果排序 293
四、增强索引的功能 295
第四节 答案提取和验证模块 295
一、生成候选答案集合 295
二、答案提取 296
第五节 问答系统的改进方法 299
一、问答系统中外部资源的利用 299
二、寻找特殊类问题的解决方案 301
三、通过系综方法构建问答系统 302
第六节 问答系统的评测 303
一、TREC问答系统评测 303
二、问答系统评测指标 304
第七节 实例:天网开放域问答系统 306
第八节 小结 308
参考文献 309
附录 术语 322
- 《第一性原理方法及应用》李青坤著 2019
- 《计算机组成原理解题参考 第7版》张基温 2017
- 《高等院校保险学专业系列教材 保险学原理与实务》林佳依责任编辑;(中国)牟晓伟,李彤宇 2019
- 《刑法归责原理的规范化展开》陈璇著 2019
- 《教师教育系列教材 心理学原理与应用 第2版 视频版》郑红,倪嘉波,刘亨荣编;陈冬梅责编 2020
- 《单片机原理及应用》庄友谊 2020
- 《通信电子电路原理及仿真设计》叶建芳 2019
- 《中国西北地区奥陶系达瑞威尔阶至凯迪阶的笔石研究》空 2018
- 《计算机组成原理 第2版》任国林 2018
- 《化工原理课程设计》刘建周主编 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《《走近科学》精选丛书 中国UFO悬案调查》郭之文 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《中医骨伤科学》赵文海,张俐,温建民著 2017
- 《美国小学分级阅读 二级D 地球科学&物质科学》本书编委会 2016
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《强磁场下的基础科学问题》中国科学院编 2020
- 《小牛顿科学故事馆 进化论的故事》小牛顿科学教育公司编辑团队 2018
- 《小牛顿科学故事馆 医学的故事》小牛顿科学教育公司编辑团队 2018
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019