《搜索引擎原理与实践》PDF下载

  • 购买积分:12 如何计算积分?
  • 作  者:袁津生,李群,蔡岳编著
  • 出 版 社:北京:北京邮电大学出版社
  • 出版年份:2008
  • ISBN:9787563518616
  • 页数:329 页
图书介绍:随着搜索引擎技术的发展和不断完善,越来越多的人开始对搜索引擎原理和技术进行研究,越来越多的人喜欢上了搜索引擎。

第1章 搜索引擎概述 1

1.1搜索引擎的概念 1

1.2搜索引擎的历史 2

1.3搜索引擎的分类 5

1.4搜索引擎的关键技术 8

1.5当代主要搜索引擎介绍 9

1.5.1谷歌搜索 9

1.5.2雅虎搜索 12

1.5.3百度搜索 14

1.5.4北大天网搜索 18

1.6搜索引擎的发展 20

1.7小结 21

思考题 23

第2章 搜索引擎的体系结构和工作原理 24

2.1搜索引擎的体系结构 24

2.1.1搜索器 25

2.1.2索引器 26

2.1.3检索器 27

2.1.4用户接口 27

2.2搜索引擎的工作原理 28

2.2.1网页搜集 28

2.2.2网页处理 29

2.2.3查询服务 30

2.3元搜索引擎 32

2.3.1元搜索引擎的基本构成 32

2.3.2元搜索引擎的分类 34

2.3.3常用元搜索引擎介绍 35

2.3.4元搜索引擎的特点 37

2.3.5主要技术指标 38

2.4小结 40

思考题 41

第3章 信息处理技术 42

3.1检索模型 42

3.1.1经典模型 42

3.1.2代数模型 47

3.2文本处理 50

3.2.1词法分析 50

3.2.2分词技术 51

3.2.3无用词汇删除 56

3.2.4词干提取 57

3.2.5索引词选择 65

3.2.6词典 65

3.3文本压缩 66

3.3.1基本概念 66

3.3.2统计方法 67

3.3.3字典方法 73

3.3.4倒排文档压缩 78

3.4Web信息处理 81

3.4.1Web信息的特点 81

3.4.2Web信息的表现方式 82

3.4.3Web信息系统结构 82

3.5小结 84

思考题 86

第4章 信息检索技术 88

4.1顺排检索 88

4.1.1表展开法 88

4.1.2逻辑树展开法 91

4.1.3BF算法 97

4.1.4KMP算法 97

4.1.5BM算法 100

4.2倒排检索 102

4.2.1倒排检索 103

4.2.2倒排文档 103

4.2.3逆波兰表达式 105

4.2.4检索指令表的生成 107

4.2.5检索实施 108

4.3其他检索方法 109

4.3.1布尔检索 109

4.3.2后缀树和后缀数组 109

4.3.3加权检索 115

4.3.4全文检索 116

4.3.5超文本检索 122

4.4Web信息检索 124

4.4.1网页的搜集 125

4.4.2网页的预处理 126

4.4.3网页索引的建立 127

4.4.4相似度计算与排序方法 129

4.5小结 132

思考题 133

第5章 信息检索评价 134

5.1相关性 134

5.1.1相关性的特征 134

5.1.2相关性类别 135

5.1.3相关性模型 136

5.2性能评价指标 139

5.2.1有效性 139

5.2.2查全率和查准率 140

5.2.3其他指标 141

5.3相关组织和会议 142

5.4小结 143

思考题 144

第6章 网络搜索引擎技术 145

6.1搜索引擎的基本结构 145

6.1.1搜索引擎的结构分类 145

6.1.2网页收集模块 146

6.1.3网页索引模块 148

6.l.4查询模块 148

6.1.5用户界面 148

6.1.6搜索引擎的主要指标及分析 149

6.2搜索引擎的数据结构 150

6.2.1存储结构 150

6.2.2信息库 151

6.2.3文本索引 152

6.2.4词典 152

6.2.5采样表 152

6.2.6前向索引 153

6.2.7后向索引 154

6.3搜索引擎爬虫 154

6.3.1网络爬虫 154

6.3.2深度优先策略 155

6.3.3广度优先策略 156

6.3.4不重复抓取策略 157

6.3.5网页抓取优先策略 160

6.3.6网页重访策略 161

6.3.7网页抓取提速策略 162

6.3.8Robots协议 163

6.3.9网页内容提取技术 165

6.4小结 166

思考题 167

第7章 多媒体检索概述 168

7.1多媒体信息 168

7.1.1多媒体及多媒体技术 168

7.1.2音频信息 170

7.1.3图形与图像信息 173

7.1.4视频信息 175

7.2多媒体的基本概念 179

7.2.1多媒体技术的特点 179

7.2.2多媒体信息系统 180

7.2.3多媒体数据库 180

7.2.4多媒体信息检索 182

7.3多媒体数据压缩 185

7.3.1多媒体压缩原理 185

7.3.2多媒体压缩编码 186

7.4多媒体内容的理解 187

7.4.1图像分割 187

7.4.2特征提取 188

7.4.3分类 189

7.5多媒体信息检索的关键技术 189

7.5.1信息模型和表示 189

7.5.2检索技术 190

7.5.3查询语言 190

7.5.4信息压缩和恢复 190

7.5.5信息存储管理 191

7.5.6多媒体同步技术 191

7.6小结 191

思考题 193

第8章 基于内容的多媒体信息检索技术 194

8.1基于内容的多媒体检索原理与特点 194

8.1.1多媒体内容的检索 194

8.1.2多媒体数据库与关系型数据库 196

8.1.3基于内容数据检索系统的结构 196

8.1.4基于内容的数据检索系统的检索过程 197

8.2基于内容的音频检索 198

8.2.1音频信息检索 198

8.2.2主要查询方式 200

8.2.3音频预处理 202

8.2.4语音检索 205

8.2.5音乐检索 205

8.2.6音频检索 206

8.3基于内容的图像检索 207

8.3.1图像信息检索 207

8.3.2主要查询方式 212

8.3.3基于颜色特征的图像检索 213

8.3.4基于纹理特征的图像检索 216

8.3.5基于形状特征的图像检索 219

8.3.6基于空间关系的图像检索 221

8.3.7基于综合特征的图像检索 224

8.4基于内容的视频检索 227

8.4.1基本概念 228

8.4.2关键技术 229

8.4.3视频分割 230

8.4.4特征提取 231

8.4.5视频聚类 232

8.4.6视频检索 234

8.5小结 236

思考题 238

第9章 搜索引擎开发技术 239

9.1实例简介 239

9.1.1搜索引擎的体系结构 240

9.1.2网页搜集 241

9.1.3网页预处理 241

9.1.4查询服务 242

9.2环境搭建与配置 243

9.2.1JDK1.6的安装与配置 244

9.2.2Eclipse的安装与配置 247

9.2.3Tomcat的安装与配置 254

9.2.4Heritrix的安装与配置 257

9.3网页搜集 265

9.3.1设置Heritrix抓取任务 265

9.3.2修改Heritrix源代码 271

9.3.3抓取网页 275

9.4网页预处理 277

9.4.1原始网页的处理 277

9.4.2建立简单的索引 296

9.4.3为实例建立索引 304

9.5查询服务 307

9.5.1结构设计 308

9.5.2后台设计 308

9.5.3页面设计 315

9.5.4部署到Tomcat 323

9.6小结 325

实验 325

参考文献 327