第1章 搜索引擎的历史和现状 1
1.1 搜索引擎的历史 1
1.2 搜索引擎的分类 4
1.3 搜索引擎的现状 6
1.4 世界主要搜索引擎介绍 7
1.4.1 Google 7
1.4.2 百度 10
1.4.3 Technorati 11
1.4.4 Alltheweb 12
1.4.5 Ask.com 13
1.4.6 MSN Search 14
小结 15
参考文献 15
第2章 数据挖掘 17
2.1 数据挖掘概览 17
2.1.1 为什么要做数据挖掘 19
2.1.2 数据挖掘的任务 20
2.1.3 关联挖掘和分析 21
2.1.4 分类 21
2.1.5 聚类分析 23
2.1.6 序列模式分析 24
2.1.7 偏差分析 24
2.2 数据挖掘的常用技术 25
2.2.1 人工神经网络 25
2.2.2 统计分析 26
小结 27
参考文献 27
第3章 搜索引擎的数据结构 29
3.1 存储结构 29
3.1.1 四种基本存储方法 30
3.2 索引 33
3.2.1 倒排索引 33
3.3 结构化查询语言 36
3.4 海量数据系统 38
小结 39
参考文献 39
第4章 搜索引擎的基本结构 40
4.1 网络爬虫 41
4.2 排序 43
4.2.1 网页的权重 43
4.2.2 向量空间模型VSM 44
4.2.3 扩展相关信息 46
4.3 索引系统 49
4.4 缓存机制 55
小结 55
参考文献 56
第5章 搜索引擎爬虫 57
5.1 深度优先与广度优先 58
5.1.1 网页链接情况概览 58
5.1.2 取得有效的网页文字 59
5.1.3 深度优先 61
5.1.4 广度优先 63
5.2 实例——Larbin 65
5.2.1 Larbin简介 65
5.2.2 Larbin的作用 66
5.2.3 Larbin的使用 66
5.2.4 Larbin的性能特征 68
小结 68
参考文献 69
第6章 搜索引擎索引系统 70
6.1 索引结构 70
6.2 使用直接I/O提高文件扫描性能 75
6.3 倒排表合并策略 78
6.4 利用内存临时索引技术实现即时搜索 81
6.5 对正排文件进行压缩减少磁盘占用 82
6.6 实例——Lucene 83
6.6.1 Lucene的原理 84
6.6.2 对多个字段进行联合检索 92
6.6.3 对索引进行优化 93
6.6.4 利用RangeQuery进行范围查询 94
6.6.5 组合查询 95
6.6.6 多个索引进行联合搜索 96
6.7 实例——Booso.com 98
小结 111
参考文献 111
第7章 分布式搜索引擎设计 112
7.1 分布式搜索引擎的核心问题 112
7.2 分布式元搜索引擎 113
7.3 散列式分布搜索引擎 120
7.3.1 散列式分布搜索引擎原理 121
7.3.2 对散列式分布搜索引擎的改进 129
7.3.3 散列式分布搜索引擎的缺陷 131
7.4 索引与文档的分开存放 132
7.4.1 文档服务器的设计 134
7.4.2 文档服务器的分布式处理 135
7.5 对分布式结构建立缓存机制 137
7.6 混合分布式搜索引擎 139
7.7 分布式搜索引擎的扩展性 142
7.7.1 一种实用的节点动态调整方案 143
7.8 P2P分布搜索引擎 146
7.9 局部遍历型搜索引擎 150
小结 152
参考文献 153
第8章 Google搜索引擎的结构 155
8.1 Google要解决的问题 155
8.2 Google的分布式设计 157
8.3 Google文件系统 161
8.4 MapReduce 166
8.5 BigTable 171
8.6 相关搜索的实现 176
小结 176
参考文献 177
第9章 中文分词 178
9.1 中文信息的特征 178
9.2 搜索引擎的分词 179
9.3 分词的方法 180
9.3.1 正向最大匹配分词 181
9.3.2 逆向最大匹配分词 185
9.4 基于统计的分词方法 187
9.5 其他分词系统 188
9.6 混合分词 191
9.7 对分不出来的词的处理 192
9.8 停止词训练方法 194
9.9 实例——分词程序 195
小结 207
参考文献 208
第10章 分类与聚类 209
10.1 分类与聚类介绍 209
10.1.1 自动分类 209
10.1.2 自动聚类 211
10.2 自动分类的原理 211
10.2.1 自动分类技术概览 211
10.2.2 矢量模型 214
10.2.3 在多文档情况下的矢量模型的修正 214
10.2.4 TF*IDF的修正 215
10.2.5 基于位置的修正 215
10.3 文本信息的噪声模型 216
10.3.1 文本信息模型概览 216
10.3.2 噪声模型 216
10.3.3 噪声的提取 217
10.4 分类的实验 218
10.4.1 实施步骤 218
10.4.2 样本与类向量 219
10.4.3 分类实验的流程 220
10.4.4 分类结果的输出 221
10.5 利用层次聚类法实现文本自动聚类 222
10.5.1 层次聚类技术 222
10.5.2 实现步骤 223
10.5.3 自动聚类实例 224
小结 226
参考文献 226
第11章 内容消重和SPAM消除 228
11.1 信息指纹 229
11.2 内容消重 230
11.3 Spam的识别和剔除 232
11.3.1 一种简单实用的识别SPAM方法 234
11.3.2 一个最大的spam案例 237
小结 238
参考文献 239
第12章 图像搜索引擎 241
12.1 简介 241
12.2 图像的收集过程 242
12.2.1 图像的发现 243
12.2.2 图像的文件形式 244
12.3 主题分类和索引 245
12.3.1 文本处理 245
12.3.2 图像的主题分类(Taxonomy) 246
12.3.3 关键词表和目录名与主题的匹配 247
12.4 搜索、浏览、挖掘 248
12.5 基于图像内容的搜索技术 249
12.5.1 色阶图的相似性 250
12.5.2 自动图像归类 251
12.5.3 相关反馈 251
12.5.4 色阶图的调节 252
12.6 基于图像内容的搜索实例 252
12.6.1 Retrievr系统 253
12.6.2 图像聚类的Booso算法 255
12.6.3 一个图像处理的实例 256
12.6.4 基于图像内容聚类的实现 259
小结 260
参考资料 260
附录 262