《现代信息检索原书第2版》PDF下载

购买积分：19 如何计算积分？
作　　者：（西）贝泽-耶茨著
出版社：北京：机械工业出版社
出版年份：2012
ISBN：9787111385998
页数：672 页

图书介绍：本书不仅详细介绍了信息检索的所有主要概念和技术，以及有关信息检索面的所有新变化，而且其组织使读者既可以对现代信息检索有一个全面的了解，又可以获取现代信息检索所有关键主题的详细知识。

点击购买此书全本PDF电子书

第1章引言 1

1.1 信息检索 1

1.1.1 信息检索的早期发展 1

1.1.2 图书馆和数字图书馆中的信息检索 2

1.1.3 舞台中央的信息检索 2

1.2 信息检索问题 3

1.2.1 用户的任务 3

1.2.2 信息检索与数据检索 4

1.3 信息检索系统 4

1.3.1 信息检索系统的软件架构 4

1.3.2 检索和排序过程 5

1.4 Web 6

1.4.1 Web简史 7

1.4.2 电子出版时代 7

1.4.3 Web如何改变搜索 8

1.4.4 Web上的实际问题 9

1.5 本书的组织结构 9

1.5.1 本书的重点 9

1.5.2 本书的内容 10

1.6 本书的教学资源网站 12

1.7 文献讨论 12

第2章用户搜索界面 16

2.1 介绍 16

2.2 人们如何搜索 16

2.2.1 信息查找与探索式搜索 16

2.2.2 信息搜寻的经典模型与动态模型 17

2.2.3 导航与搜索 18

2.2.4 对搜索过程的观察 18

2.3 现今的搜索界面 19

2.3.1 启动搜寻 19

2.3.2 查询描述 19

2.3.3 查询描述界面 20

2.3.4 检索结果显示 22

2.3.5 查询重构 24

2.3.6 组织搜索结果 26

2.4 搜索界面的可视化 32

2.4.1 可视化布尔语法 32

2.4.2 可视化查询结果中的查询项 33

2.4.3 可视化词语和文档间的关系 36

2.4.4 文本挖掘的可视化 38

2.5 搜索界面的设计和评价 40

2.6 趋势和研究问题 42

2.7 文献讨论 42

第3章信息检索建模 44

3.1 信息检索模型 44

3.1.1 建模和排序 44

3.1.2 信息检索模型描述 44

3.1.3 信息检索模型的分类体系 45

3.2 经典信息检索 47

3.2.1 基本概念 47

3.2.2 布尔模型 49

3.2.3 项权重 50

3.2.4 TF-IDF权重 52

3.2.5 文档长度归一化 56

3.2.6 向量模型 57

3.2.7 概率模型 59

3.2.8 经典模型之间的简单比较 64

3.3 其他集合论模型 64

3.3.1 基于集合的模型 64

3.3.2 扩展布尔模型 68

3.3.3 模糊集模型 70

3.4 其他代数模型 72

3.4.1 广义向量空间模型 72

3.4.2 潜在语义索引模型 74

3.4.3 神经网络模型 75

3.5 其他概率模型 76

3.5.1 BM25模型 77

3.5.2 语言模型 78

3.5.3 随机差异模型 83

3.5.4 贝叶斯网模型 85

3.6 其他模型 90

3.6.1 超文本模型 90

3.6.2 基于Web的模型 91

3.6.3 结构化文本检索 91

3.6.4 多媒体检索 92

3.6.5 企业和垂直搜索 92

3.7 趋势和研究问题 92

3.8 文献讨论 93

第4章检索评价 96

4.1 介绍 96

4.2 Cranfield范式 97

4.2.1 历史简述 97

4.2.2 参考集 98

4.3 检索指标 98

4.3.1 精度和召回率 98

4.3.2 单值总结：P @n,MAP,MRR,F 102

4.3.3 面向用户的指标 105

4.3.4 折扣累积增益 106

4.3.5 二元偏好 109

4.3.6 排序相关性测度 111

4.4 参考文档集 115

4.4.1 TREC参考集 115

4.4.2 其他参考集 121

4.4.3 其他小规模测试文档集 121

4.5 基于用户的评价 122

4.5.1 实验室中的人工实验 122

4.5.2 并排面板 122

4.5.3 A/B测试 123

4.5.4 众包 124

4.5.5 使用点击数据的评价 125

4.6 实践说明 126

4.7 趋势和研究问题 127

4.8 文献讨论 127

第5章相关反馈与查询扩展 129

5.1 介绍 129

5.2 反馈方法的框架 129

5.3 显式相关反馈 131

5.3.1 向量模型的相关反馈：Rocchio方法 131

5.3.2 概率模型的相关反馈 133

5.3.3 相关反馈的评价 134

5.4 基于点击的显式反馈 134

5.4.1 眼动追踪和相关性评价 134

5.4.2 用户行为 135

5.4.3 点击作为用户偏好的指标 136

5.5 通过局部分析的隐式反馈 138

5.5.1 通过局部聚类的隐式反馈 138

5.5.2 通过局部上下文分析的隐式反馈 140

5.6 通过全局分析的隐式反馈 141

5.6.1 基于相似度同义词典的查询扩展 141

5.6.2 基于统计同义词典的查询扩展 143

5.7 趋势和研究问题 145

5.8 文献讨论 145

第6章文档：语言及属性 147

6.1 介绍 147

6.2 元数据 148

6.3 文档格式 149

6.3.1 文本 149

6.3.2 多媒体 149

6.3.3 图形和虚拟现实 150

6.4 标记语言 151

6.4.1 SGML 151

6.4.2 HTML 153

6.4.3 XML 155

6.4.4 RDF 157

6.4.5 HyTime 158

6.5 文本属性 159

6.5.1 信息论 159

6.5.2 自然语言建模 159

6.5.3 文本相似度 162

6.6 文档预处理 163

6.6.1 文本的词汇分析 163

6.6.2 去除禁用词 164

6.6.3 词干提取 165

6.6.4 关键词选择 166

6.6.5 同义词典 166

6.7 组织文档 168

6.7.1 分类体系法 168

6.7.2 分众分类法 169

6.8 文本压缩 170

6.8.1 基本概念 170

6.8.2 统计方法 171

6.8.3 统计方法：建模 171

6.8.4 统计方法：编码 173

6.8.5 字典方法 179

6.8.6 压缩预处理 180

6.8.7 文本压缩技术的比较 181

6.8.8 结构化文本压缩 182

6.9 趋势和研究问题 183

6.10 文献讨论 185

第7章查询：语言及属性 187

7.1 查询语言 187

7.1.1 基于关键词的查询 188

7.1.2 非关键词查询 190

7.1.3 结构化查询 192

7.1.4 查询协议 194

7.2 查询属性 195

7.2.1 Web查询的特征 195

7.2.2 用户搜索行为 197

7.2.3 查询意图 197

7.2.4 查询主题 199

7.2.5 查询会话与任务 200

7.2.6 查询难度 200

7.3 趋势和研究问题 203

7.4 文献讨论 204

第8章文本分类 205

8.1 介绍 205

8.2 文本分类的特性描述 206

8.2.1 机器学习 206

8.2.2 文本分类问题 206

8.2.3 文本分类算法 207

8.3 无监督算法 208

8.3.1 聚类 208

8.3.2 朴素文本分类 212

8.4 监督算法 212

8.4.1 决策树 214

8.4.2 k近邻分类器 218

8.4.3 Rocchio分类器 219

8.4.4 概率朴素贝叶斯文档分类 221

8.4.5 支持向量机分类器 224

8.4.6 集成分类器 231

8.4.7 关于监督算法的结束语 234

8.5 特征选择或降维 234

8.5.1 项-类别出现列联表 235

8.5.2 索引项文档频率 236

8.5.3 TF-IDF权重 236

8.5.4 互信息 236

8.5.5 信息增益 237

8.5.6 卡方检验 237

8.5.7 特征选择的作用 238

8.6 评价指标 238

8.6.1 列联表 238

8.6.2 准确率和错误率 239

8.6.3 精度和召回率 239

8.6.4 F测度和F1 240

8.6.5 交叉检验 241

8.6.6 标准文档集 241

8.7 类别组织——构建分类体系 242

8.8 趋势和研究问题 244

8.9 文献讨论 244

第9章索引和搜索 247

9.1 介绍 247

9.2 倒排索引 249

9.2.1 基本概念 249

9.2.2 完全倒排索引 250

9.2.3 搜索 252

9.2.4 排序 256

9.2.5 构建 257

9.2.6 压缩的倒排索引 260

9.2.7 结构化查询 261

9.3 签名文件 262

9.4 后缀树和后缀数组 264

9.4.1 结构：trie树和后缀树 265

9.4.2 简单字符串搜索 266

9.4.3 复杂模式的搜索 267

9.4.4 构建 268

9.4.5 压缩的后缀数组 270

9.5 序列搜索 273

9.5.1 简单字符串：Horspool 274

9.5.2 复杂模式：自动机和位并行 276

9.5.3 更快的位并行算法 279

9.5.4 正则表达式 281

9.5.5 多重模式 282

9.5.6 近似搜索 283

9.5.7 搜索压缩文本 285

9.6 多维索引 287

9.7 趋势和研究问题 288

9.8 文献讨论 289

第10章并行与分布式信息检索 293

10.1 介绍 293

10.2 分布式信息检索系统的分类 294

10.3 数据划分 296

10.3.1 文档集划分 297

10.3.2 文档集选择 298

10.3.3 倒排索引划分 299

10.3.4 划分其他索引 302

10.4 并行信息检索 303

10.4.1 介绍 303

10.4.2 在MIMD架构上的并行信息检索 305

10.4.3 在SIMD架构上的并行信息检索 306

10.5 基于集群的信息检索 310

10.6 分布式信息检索 310

10.6.1 介绍 310

10.6.2 索引 313

10.6.3 查询处理 315

10.6.4 Web问题 320

10.7 联合搜索 320

10.8 在对等网络中的检索 322

10.9 趋势和研究问题 325

10.10 文献讨论 326

第11章 Web检索 327

11.1 介绍 327

11.2 一个有挑战性的问题 328

11.3 Web 329

11.3.1 特性 329

11.3.2 Web图的结构 331

11.3.3 对Web建模 332

11.3.4 链接分析 334

11.4 搜索引擎架构 335

11.4.1 基本架构 335

11.4.2 基于集群的架构 336

11.4.3 缓存 337

11.4.4 多级索引 339

11.4.5 分布式架构 340

11.5 搜索引擎排序 342

11.5.1 排序信号 342

11.5.2 基于链接的排序 343

11.5.3 简单的排序函数 345

11.5.4 排序学习 345

11.5.5 学习排序函数 346

11.5.6 质量评价 347

11.5.7 Web垃圾 348

11.6 管理Web数据 348

11.6.1 为文档分配标识符 348

11.6.2 元数据 349

11.6.3 压缩Web图 349

11.6.4 处理重复数据 349

11.7 搜索引擎用户交互 350

11.7.1 搜索矩形范式 351

11.7.2 搜索引擎结果页面 356

11.7.3 培养用户 363

11.8 浏览 364

11.8.1 扁平浏览 364

11.8.2 结构导向的浏览和Web目录 364

11.9 浏览之外 366

11.9.1 超文本和Web 366

11.9.2 搜索与浏览相结合 366

11.9.3 Web查询语言 367

11.9.4 动态搜索 367

11.10 相关问题 368

11.10.1 计算广告学 368

11.10.2 Web挖掘 370

11.10.3 元搜索 371

11.11 趋势和研究问题 372

11.11.1 静态文本数据之外 372

11.11.2 目前的挑战 373

11.12 文献讨论 374

第12章 Web爬取 376

12.1 介绍 376

12.2 网络爬虫的应用 377

12.2.1 通用Web搜索 377

12.2.2 聚焦爬取 378

12.2.3 Web刻画 378

12.2.4 镜像 378

12.2.5 网站分析 379

12.3 爬虫的分类体系 379

12.4 架构和实现 380

12.4.1 爬虫架构 380

12.4.2 实际问题 382

12.4.3 并行爬取 384

12.5 调度算法 384

12.5.1 选择策略 385

12.5.2 重访问策略 387

12.5.3 友好策略 391

12.5.4 组合策略 393

12.6 评价 393

12.6.1 评价网络使用 393

12.6.2 评价长期调度 394

12.7 趋势和研究问题 395

12.7.1 爬取“暗网” 395

12.7.2 在网站帮助下的爬取 396

12.7.3 分布式爬取 396

12.8 文献讨论 396

第13章结构化文本检索 398

13.1 介绍 398

13.2 结构化能力 399

13.2.1 显式和隐式结构对比 399

13.2.2 静态与动态结构对比 399

13.2.3 单一层次结构与多层次结构对比 400

13.3 早期文本检索模型 400

13.3.1 基于非覆盖列表的模型 401

13.3.2 基于相邻结点的模型 401

13.3.3 结构化文本结果排序 402

13.4 XML检索 403

13.4.1 XML检索中的挑战 403

13.4.2 索引策略 404

13.4.3 排序策略 405

13.4.4 去除重叠 412

13.5 XML检索评价 413

13.5.1 文档集 414

13.5.2 主题 414

13.5.3 检索任务 415

13.5.4 相关性 416

13.5.5 测度 417

13.6 查询语言 419

13.6.1 特性 419

13.6.2 XML查询语言分类 420

13.6.3 XML查询语言样例 421

13.7 趋势和研究问题 425

13.8 文献讨论 427

第14章多媒体信息检索 429

14.1 介绍 429

14.1.1 什么是多媒体 429

14.1.2 多媒体检索 429

14.1.3 文本检索与多媒体检索的对比 430

14.2 挑战 431

14.2.1 语义鸿沟 431

14.2.2 特征歧义性 432

14.2.3 机器生成的数据 432

14.3 基于内容的图像检索 433

14.3.1 基于颜色的检索 433

14.3.2 纹理 434

14.3.3 显著点 436

14.4 声音和音乐检索 437

14.4.1 指纹识别 437

14.4.2 语音识别 438

14.4.3 说话人识别 440

14.4.4 语音文档检索 440

14.4.5 音频基础知识 440

14.5 检索和浏览视频 443

14.5.1 视频摘要 443

14.5.2 静态摘要 444

14.5.3 图像拼接与跳跃剧照 445

14.5.4 动态摘要 446

14.5.5 交互式摘要 447

14.5.6 视觉与听觉浏览对比 448

14.5.7 摘要评价 448

14.6 融合模型：合并所有信息 449

14.6.1 人脸命名 449

14.6.2 图像命名 450

14.6.3 音频命名 451

14.6.4 结合音频与视频的音-视频语音识别 451

14.6.5 结合音频和视频的多媒体处理 453

14.7 分割 453

14.7.1 视频分割样例 454

14.7.2 视频分割方案 455

14.7.3 利用边缘的视频分割 455

14.7.4 语音分割 456

14.7.5 分割评价 457

14.8 压缩和MPEG标准 457

14.8.1 强度和采样 458

14.8.2 颜色 458

14.8.3 有损压缩 459

14.8.4 无损压缩 461

14.8.5 时间冗余 461

14.8.6 运动预测 461

14.8.7 MPEG标准 462

14.9 趋势和研究问题 465

14.10 文献讨论 466

第15章企业搜索 469

15.1 介绍 469

15.1.1 企业搜索的特点和应用 469

15.1.2 企业搜索软件 470

15.1.3 工作场所搜索 471

15.2 企业搜索任务 471

15.2.1 搜索支持任务的例子 471

15.2.2 搜索类型 473

15.2.3 研究企业搜索 473

15.3 企业搜索系统的结构 474

15.3.1 收集 474

15.3.2 提取 476

15.3.3 索引 477

15.3.4 文本注释的索引 477

15.3.5 查询处理 478

15.3.6 搜索结果的展示 479

15.3.7 安全模型 480

15.3.8 联合／元搜索 482

15.4 企业搜索评价 484

15.4.1 企业搜索的公开测试集 484

15.4.2 企业搜索内部评价 485

15.4.3 企业搜索调试 486

15.4.4 所能期待的是什么 487

15.5 不满意的可能原因 488

15.6 情境化和个性化 490

15.6.1 情境化的控制和工具 491

15.6.2 情境化：本地、企业或全球 493

15.6.3 轮廓的隐私 494

15.6.4 定义、建立和维护轮廓 494

15.6.5 用户建模 495

15.6.6 隐式评价 496

15.6.7 信息过滤 496

15.6.8 社会化推荐系统 497

15.7 趋势和研究问题 497

15.8 文献讨论 497

第16章图书馆系统 499

16.1 图书馆的信息环境 499

16.2 联机公共检索目录 500

16.2.1 OPAC和书目记录 501

16.2.2 来自ILS的信息检索 503

16.2.3 混合图书馆的整合 504

16.2.4 OPAC和最终用户 505

16.2.5 ILS：供应商和产品 506

16.3 信息检索系统与文档数据库 507

16.3.1 书目和全文数据库 508

16.3.2 数据库记录的内容 508

16.3.3 联机产业：数据库供应商 510

16.3.4 来自文档数据库的信息检索 511

16.4 组织机构内部的信息检索 514

16.5 趋势和研究问题 515

16.6 文献讨论 516

第17章数字图书馆 517

17.1 介绍 517

17.2 定义数字图书馆 517

17.3 通用架构 518

17.4 基本概念 519

17.4.1 数字对象和馆藏 519

17.4.2 元数据和目录 520

17.4.3 资源库／档案库 522

17.4.4 服务 525

17.5 社会经济问题 527

17.5.1 社会问题 527

17.5.2 经济问题 527

17.6 软件系统 528

17.6.1 Greenstone 529

17.6.2 Eprints 529

17.6.3 DSpace 529

17.6.4 Fedora 529

17.6.5 ODL 530

17.6.6 5S套件 530

17.7 数字图书馆案例研究 531

17.7.1 联网学位论文数字图书馆 531

17.7.2 国家科学数字图书馆 532

17.7.3 ETANA-DL考古数字图书馆 532

17.8 趋势和研究问题 532

17.8.1 评价 532

17.8.2 集成 533

17.8.3 其他研究挑战 533

17.9 文献讨论 534

附录A 开源搜索引擎 535

附录B 作者简介 549

参考文献 554

索引 654

《现代信息检索 原书第2版》PDF下载

《现代信息检索原书第2版》PDF下载