《网络信息检索》PDF下载

  • 购买积分:12 如何计算积分?
  • 作  者:董守斌,袁华编著
  • 出 版 社:西安:西安电子科技大学出版社
  • 出版年份:2010
  • ISBN:9787560623788
  • 页数:348 页
图书介绍:本书详细介绍了网络信息检索的原理和技术,包括信息检索模型、网络信息的自动获取、网络信息预处理和索引、查询语言和查询优化等,并对网络信息检索的广泛应用,对搜索引擎、中文和跨语言信息检索、多媒体检索、并行和分布式信息检索、信息分布和聚类、信息提取与自动问答等重要应用的关键技术进行了深入探讨。

第1章 绪论 1

1.1网络信息检索概述 1

1.1.1网络信息 1

1.1.2信息检索 2

1.1.3网络信息检索 3

1.2信息检索的发展 4

1.2.1手工检索 4

1.2.2脱机批处理检索 4

1.2.3联机检索 5

1.2.4网络信息检索 6

1.3网络信息检索的应用 6

1.3.1搜索引擎 6

1.3.2多媒体信息检索 8

1.3.3话题识别与跟踪 10

1.3.4信息过滤 11

1.3.5问题回答 13

思考题 15

参考文献 15

第2章 信息检索模型 16

2.1检索模型定义 17

2.2布尔模型 18

2.3向量模型 20

2.3.1索引项权重 21

2.3.2相似度量 22

2.3.3计算方法 23

2.4概率模型 26

2.5扩展的布尔模型 31

2.5.1模糊集合模型 31

2.5.2扩展布尔模型 33

2.6扩展的向量模型 35

2.6.1广义向量空间模型 35

2.6.2潜语义标引模型 38

2.6.3神经网络模型 41

2.7扩展的概率模型 43

2.7.1推理网络模型 44

2.7.2信任度网络模型 47

2.7.3语言模型 49

2.8小结 51

思考题 52

习题 52

参考文献 55

第3章 网络信息的自动搜集 57

3.1网络信息的特点 57

3.1.1 Web的组成 57

3.1.2 Web的特点 62

3.2网络信息搜集的原理 64

3.2.1信息搜集的基本流程 64

3.2.2遍历策略 66

3.2.3页面解析 68

3.3网络信息搜集的礼貌原则 69

3.3.1机器人排斥协议 69

3.3.2机器人元标签 70

3.4高性能信息搜集 71

3.4.1并行搜集 71

3.4.2 DNS优化 72

3.4.3优先搜集策略 74

3.4.4网页更新 74

3.4.5网页消重 75

3.4.6避免蜘蛛陷阱 76

3.5专题信息搜集 77

3.5.1网页的主题特性 77

3.5.2专题信息搜集算法 78

3.6小结 80

思考题 80

习题 80

参考文献 83

第4章 网页文本处理和索引 85

4.1文本的特性 86

4.1.1信息熵 86

4.1.2统计定律 87

4.2网页信息的特征 89

4.2.1网页结构 89

4.2.2网页类型 91

4.3网页去噪 93

4.3.1基于网页结构的方法 93

4.3.2基于模板的方法 96

4.4文本处理 96

4.4.1词汇分析 99

4.4.2排除停用词 100

4.4.3词干提取 101

4.4.4索引词选择 101

4.5索引 102

4.5.1 Trie树 102

4.5.2后缀树 103

4.5.3签名档 105

4.5.4倒排文件 106

4.6小结 112

思考题 113

习题 113

参考文献 114

第5章 查询语言与查询处理 116

5.1 Web查询语言 116

5.1.1 WebSQL查询语言 117

5.1.2 W3QL查询语言 119

5.1.3 WebOQL查询语言 119

5.2查询方式 121

5.2.1基于关键字的查询 121

5.2.2模式匹配 124

5.3相关反馈 125

5.3.1向量空间模型中的相关反馈 126

5.3.2概率模型中的相关反馈 128

5.4查询扩展 129

5.4.1基于字典的简单查询扩展 129

5.4.2自动局部分析 132

5.4.3自动全局分析 135

5.5小结 139

思考题 140

习题 140

参考文献 142

第6章 信息检索性能评价 144

6.1信息检索评价指标 144

6.1.1查全率和查准率 144

6.1.2其他评价指标 148

6.2信息检索评价基准 156

6.2.1基准测试 156

6.2.2 TREC评测 158

6.2.3 Web检索评价 162

6.2.4 CWIRF评测 164

6.3小结 166

思考题 166

习题 167

参考文献 168

第7章 搜索引擎 170

7.1概述 171

7.1.1发展概况 171

7.1.2术语与定义 172

7.1.3工作原理 174

7.2链接分析 178

7.2.1 PageRank 178

7.2.2 HITS 186

7.2.3算法比较 189

7.3相关排序 190

7.3.1 Lucene检索模型 190

7.3.2 Nutch排序算法 193

7.4大规模搜索引擎 198

7.4.1体系架构 199

7.4.2数据结构 200

7.4.3检索算法 202

7.4.4相关排序 202

7.5小结 203

思考题 204

习题 204

参考文献 207

第8章 并行和分布式信息检索 209

8.1并行信息检索 209

8.1.1并行计算的概念 209

8.1.2并行信息检索体系架构 210

8.1.3并行编程 212

8.1.4数据并行 214

8.2分布式信息检索 217

8.3元搜索引擎 218

8.3.1系统架构 220

8.3.2资源选择 222

8.3.3文档选择 227

8.3.4信息融合 228

8.4 P2P网络信息检索 234

8.4.1 P2P网络信息检索的原理 235

8.4.2非结构化P2P网络信息检索 236

8.4.3结构化P2P网络信息检索 238

8.5小结 241

思考题 241

习题 242

参考文献 244

第9章 中文和跨语言信息检索 247

9.1中文预处理 247

9.1.1中文编码及转换 248

9.1.2中文分词 250

9.2中文信息检索 256

9.2.1中文检索模型 256

9.2.2中文索引 258

9.3跨语言信息检索 260

9.3.1基本原理 260

9.3.2基于GVSM的跨语言检索 264

9.3.3基于LSI的跨语言检索 268

9.4小结 271

思考题 271

习题 271

参考文献 273

第10章 多媒体信息检索 274

10.1基于内容的图像信息检索 275

10.2图像特征提取 277

10.2.1颜色特征 277

10.2.2形状特征提取 284

10.2.3纹理特征提取 285

10.3图像相似量度 290

10.4基于内容的视频信息检索 291

10.4.1镜头分割 292

10.4.2关键帧提取 293

10.5基于内容的音频信息检索 294

10.6小结 295

思考题 296

习题 296

参考文献 297

第11章 信息分类与聚类 299

11.1基本知识 299

11.1.1类的概念 299

11.1.2对象特征描述 300

11.1.3文档相似性 300

11.1.4类间距离 302

11.2特征描述及提取 303

11.2.1特征提取 303

11.2.2特征选择 304

11.3聚类方法 305

11.3.1划分聚类法 305

11.3.2层次聚类法 308

11.3.3其他聚类方法 309

11.4分类方法 309

11.4.1 Naive Bayes算法 310

11.4.2 kNN算法 313

11.4.3 Rocchio算法 315

11.4.4 SVM算法 316

11.5方法评测 320

11.5.1聚类方法评测 320

11.5.2分类方法评测 321

11.5.3显著性检验 323

11.6小结 325

思考题 325

习题 326

参考文献 328

第12章Web信息抽取与问答系统 329

12.1信息抽取概述 329

12.1.1信息抽取的发展 330

12.1.2信息抽取的评价指标 331

12.2 Web信息抽取 331

12.2.1基于关键字的Web信息抽取 332

12.2.2基于模式的Web信息抽取 333

12.2.3基于样本的Web信息抽取 338

12.3问答系统 341

12.3.1问题分析 344

12.3.2信息检索 345

12.3.3答案抽取 345

12.6小结 347

思考题 347

参考文献 348