《搜索引擎原理、实践与应用》PDF下载

  • 购买积分:11 如何计算积分?
  • 作  者:卢亮,张博文编著
  • 出 版 社:北京:电子工业出版社
  • 出版年份:2007
  • ISBN:7121048108
  • 页数:291 页
图书介绍:本书是搜索引擎业界资深的搜索引擎专家长久以来经验的积累与研究工作的心路历程。本书从搜索引擎的历史和现状开始展开,为广大读者展现了搜索引擎简单界面背后的复杂技术、原理和应用,从数据挖掘到搜索引擎的数据结构,从搜索引擎爬虫到分布式搜索引擎的设计均是作者精心研究的结果和过程,对研究搜索引擎的人士颇有实用价值和参考意义。

第1章 搜索引擎的历史和现状 1

1.1 搜索引擎的历史 1

1.2 搜索引擎的分类 4

1.3 搜索引擎的现状 6

1.4 世界主要搜索引擎介绍 7

1.4.1 Google 7

1.4.2 百度 10

1.4.3 Technorati 11

1.4.4 Alltheweb 12

1.4.5 Ask.com 13

1.4.6 MSN Search 14

小结 15

参考文献 15

第2章 数据挖掘 17

2.1 数据挖掘概览 17

2.1.1 为什么要做数据挖掘 19

2.1.2 数据挖掘的任务 20

2.1.3 关联挖掘和分析 21

2.1.4 分类 21

2.1.5 聚类分析 23

2.1.6 序列模式分析 24

2.1.7 偏差分析 24

2.2 数据挖掘的常用技术 25

2.2.1 人工神经网络 25

2.2.2 统计分析 26

小结 27

参考文献 27

第3章 搜索引擎的数据结构 29

3.1 存储结构 29

3.1.1 四种基本存储方法 30

3.2 索引 33

3.2.1 倒排索引 33

3.3 结构化查询语言 36

3.4 海量数据系统 38

小结 39

参考文献 39

第4章 搜索引擎的基本结构 40

4.1 网络爬虫 41

4.2 排序 43

4.2.1 网页的权重 43

4.2.2 向量空间模型VSM 44

4.2.3 扩展相关信息 46

4.3 索引系统 49

4.4 缓存机制 55

小结 55

参考文献 56

第5章 搜索引擎爬虫 57

5.1 深度优先与广度优先 58

5.1.1 网页链接情况概览 58

5.1.2 取得有效的网页文字 59

5.1.3 深度优先 61

5.1.4 广度优先 63

5.2 实例——Larbin 65

5.2.1 Larbin简介 65

5.2.2 Larbin的作用 66

5.2.3 Larbin的使用 66

5.2.4 Larbin的性能特征 68

小结 68

参考文献 69

第6章 搜索引擎索引系统 70

6.1 索引结构 70

6.2 使用直接I/O提高文件扫描性能 75

6.3 倒排表合并策略 78

6.4 利用内存临时索引技术实现即时搜索 81

6.5 对正排文件进行压缩减少磁盘占用 82

6.6 实例——Lucene 83

6.6.1 Lucene的原理 84

6.6.2 对多个字段进行联合检索 92

6.6.3 对索引进行优化 93

6.6.4 利用RangeQuery进行范围查询 94

6.6.5 组合查询 95

6.6.6 多个索引进行联合搜索 96

6.7 实例——Booso.com 98

小结 111

参考文献 111

第7章 分布式搜索引擎设计 112

7.1 分布式搜索引擎的核心问题 112

7.2 分布式元搜索引擎 113

7.3 散列式分布搜索引擎 120

7.3.1 散列式分布搜索引擎原理 121

7.3.2 对散列式分布搜索引擎的改进 129

7.3.3 散列式分布搜索引擎的缺陷 131

7.4 索引与文档的分开存放 132

7.4.1 文档服务器的设计 134

7.4.2 文档服务器的分布式处理 135

7.5 对分布式结构建立缓存机制 137

7.6 混合分布式搜索引擎 139

7.7 分布式搜索引擎的扩展性 142

7.7.1 一种实用的节点动态调整方案 143

7.8 P2P分布搜索引擎 146

7.9 局部遍历型搜索引擎 150

小结 152

参考文献 153

第8章 Google搜索引擎的结构 155

8.1 Google要解决的问题 155

8.2 Google的分布式设计 157

8.3 Google文件系统 161

8.4 MapReduce 166

8.5 BigTable 171

8.6 相关搜索的实现 176

小结 176

参考文献 177

第9章 中文分词 178

9.1 中文信息的特征 178

9.2 搜索引擎的分词 179

9.3 分词的方法 180

9.3.1 正向最大匹配分词 181

9.3.2 逆向最大匹配分词 185

9.4 基于统计的分词方法 187

9.5 其他分词系统 188

9.6 混合分词 191

9.7 对分不出来的词的处理 192

9.8 停止词训练方法 194

9.9 实例——分词程序 195

小结 207

参考文献 208

第10章 分类与聚类 209

10.1 分类与聚类介绍 209

10.1.1 自动分类 209

10.1.2 自动聚类 211

10.2 自动分类的原理 211

10.2.1 自动分类技术概览 211

10.2.2 矢量模型 214

10.2.3 在多文档情况下的矢量模型的修正 214

10.2.4 TF*IDF的修正 215

10.2.5 基于位置的修正 215

10.3 文本信息的噪声模型 216

10.3.1 文本信息模型概览 216

10.3.2 噪声模型 216

10.3.3 噪声的提取 217

10.4 分类的实验 218

10.4.1 实施步骤 218

10.4.2 样本与类向量 219

10.4.3 分类实验的流程 220

10.4.4 分类结果的输出 221

10.5 利用层次聚类法实现文本自动聚类 222

10.5.1 层次聚类技术 222

10.5.2 实现步骤 223

10.5.3 自动聚类实例 224

小结 226

参考文献 226

第11章 内容消重和SPAM消除 228

11.1 信息指纹 229

11.2 内容消重 230

11.3 Spam的识别和剔除 232

11.3.1 一种简单实用的识别SPAM方法 234

11.3.2 一个最大的spam案例 237

小结 238

参考文献 239

第12章 图像搜索引擎 241

12.1 简介 241

12.2 图像的收集过程 242

12.2.1 图像的发现 243

12.2.2 图像的文件形式 244

12.3 主题分类和索引 245

12.3.1 文本处理 245

12.3.2 图像的主题分类(Taxonomy) 246

12.3.3 关键词表和目录名与主题的匹配 247

12.4 搜索、浏览、挖掘 248

12.5 基于图像内容的搜索技术 249

12.5.1 色阶图的相似性 250

12.5.2 自动图像归类 251

12.5.3 相关反馈 251

12.5.4 色阶图的调节 252

12.6 基于图像内容的搜索实例 252

12.6.1 Retrievr系统 253

12.6.2 图像聚类的Booso算法 255

12.6.3 一个图像处理的实例 256

12.6.4 基于图像内容聚类的实现 259

小结 260

参考资料 260

附录 262