《走进搜索引擎》PDF下载

  • 购买积分:11 如何计算积分?
  • 作  者:梁斌编著
  • 出 版 社:北京:电子工业出版社
  • 出版年份:2007
  • ISBN:9787121049224
  • 页数:272 页
图书介绍:在网络普及的今天,人们经常在信息海洋当中彷徨,在万维网迷宫般的复杂与魅力之间挣扎,直到搜索引擎这一伟大的技术产生,才使得人们犹如找到了走出迷宫的灯塔,可以非常便捷地找到自己所需要的信息。那么搜索引擎究竟是什么?是怎么发展而来的?它是怎么组成的?它如何能做到查得快、查得全、查得准、查得稳?本书将向您一一解答。本书是由搜索引擎专业开发一线人员精心写作的,作者将自己对搜索引擎的深刻理解和实际应用用优雅的文字一一呈现,会使一位从未接触过搜索引擎原理的读者非常容易地理解其中奥秘。本书堪称为打造优质搜索引擎的第一书,是因为本书深入浅出地讲述了简单搜索输入框背后的复杂原理,对那些想进入搜索引擎行业的人或者在搜索引擎行业中想进一步提高的读者肯定会获益匪浅,同时也非常适合需要了解搜索引擎原理来更好地运用搜索引擎的读者,如专业从事搜索引擎营销(SEM)、搜索引擎优化(SEO)的人或者网站设计者、网站站长等阅读。

第一章 引言 1

第一节 什么是搜索引擎 2

第二节 搜索引擎的发展简史 5

搜索引擎的发展历史 5

第三节 搜索引擎大事快览 15

第四节 国内著名搜索引擎 17

百度(www.baidu.com) 17

中搜(www.zhongsou.com) 18

天网(e.pku.edu.cn) 19

搜狗(www.sogou.com) 20

参考文献 21

第二章 搜索引擎概貌 23

第一节 搜索引擎的主要需求 24

查得快 24

查得全 25

查得准 25

查得稳 27

第二节 搜索引擎的4大系统 28

搜索引擎的体系结构 28

第三章 搜索引擎的下载系统 31

第一节 爬虫的发展历史 32

世界上第1个爬虫 32

爬虫的发展历程 33

第二节 万维网及其网页分析 34

蝴蝶结型的万维网 34

万维网的直径 37

万维网的规模及变化特征 39

网页的特征 39

第三节 有关爬虫的基本概念 41

爬虫 41

种子站点 41

URL 42

Backlinks 42

第四节 网页抓取原理 43

telnet和wget 43

从种子站点开始逐层抓取 44

不重复抓取策略 50

网页抓取优先策略 59

网页重访策略 61

Robots协议 67

其他应该注意的礼貌性问题 69

抓取提速策略(合作抓取策略) 70

第五节 网页库 77

第六节 下载系统回顾及未来发展 82

参考文献 84

第四章 搜索引擎的分析系统 86

第一节 知识准备 87

HTML语言 87

锚文本(anchor text) 87

半结构化数据(Semi-structured data) 88

第二节 信息抽取及网页信息结构化 89

网页结构化的目标 89

建立HTML标签树 93

通过投票方法得到正文 98

网页结构化过程回顾 103

第三节 网页查重 105

网页查重技术发展历史 105

网页查重实现方法 107

第四节 中文分词 113

什么是中文分词 113

通过字典实现分词 114

通过统计学方法实现分词 120

第五节 PageRank 121

PageRank的来由 121

PageRank的基本想法 122

PageRank的计算公式 124

PageRank的计算方法 129

第六节 分析系统结构图 134

参考文献 136

第五章 搜索引擎的索引系统 139

第一节 知识准备 140

信息 140

索引 141

倒排索引、倒排表、临时倒排文件、最终倒排文件 141

其他概念 142

第二节 全文检索 143

全文检索 143

第三节 文档编号 146

编号的本质 146

文档编号的方法 147

游程编码 149

第四节 倒排索引 154

经典的倒排索引 154

正排索引(前向索引) 155

倒排索引 158

第五节 数据规模的估计 163

齐普夫法则 163

布尔检索模型下的索引规模估计 165

第六节 涉及存储规模的一些计算 170

正排表与倒排表的合并 170

多个临时倒排文件的归并 174

倒排索引分布式存储 179

倒排文件缓存 183

倒排索引词典统计信息的计算 183

第七节 倒排索引文件的创建过程 185

创建倒排表 185

计算统计信息 187

参考文献 189

第六章 搜索引擎的查询系统 191

第一节 知识准备 192

什么是信息熵 192

检索和查询的区别 196

检索词和查询词的区别 196

自动文本摘要(Automatic Text Summarization) 197

第二节 网页信息检索 198

早期的检索模型 198

向量空间模型(Vector Space Models) 201

关键词权重的量化方法TF/IDF 207

搜索引擎采用的检索模型 213

多文档列表求交计算 215

检索结果排序 222

堆排序 223

第三节 中文自动摘要 230

自动摘要的发展历史 230

自动摘要的含义和实现 231

第四节 生成搜索结果页 239

生成搜索结果页 239

第五节 搜索结果页的缓存 242

搜索结果页的缓存 242

第六节 推测用户查询意图 245

查询分类 245

推测信息类、事物类的查询意图 247

第七节 查询系统的当前热点和发展方向 249

查询系统的当前热点 249

参考文献 250

第七章 搜索引擎的其他话题 252

第一节 搜索引擎问与答 253

为什么搜索引擎的搜索速度这么快 253

为什么搜索引擎能够返回那么多的查询结果 255

为什么搜索引擎总能返回最想要的结果 256

搜索引擎如何大规模存储网页的 257

什么是SEO 259

什么是元搜索引擎 260

搜索引擎认为的作弊行为是哪些 261

如何进一步学习和了解搜索引擎发展的最新成果 262

第二节 搜索引擎未来的发展 265

新兴的搜索产品 265

搜索技术的未来 268

参考文献 270

附录A 搜索引擎系统结构全观图 271