《大规模分布式内容检索技术》PDF下载

  • 购买积分:11 如何计算积分?
  • 作  者:陈汉华,金海著
  • 出 版 社:北京:科学出版社
  • 出版年份:2011
  • ISBN:9787030314178
  • 页数:295 页
图书介绍:本书围绕大规模分布式内容检索技术展开,通过结合对等网络的概念、结构、资源描述和组织、资源定位和路由选择、结果融合及排序方法等,从结构化对等网络、无结构对等网络、和混合式对等网络各自的特点出发,全面系统的阐述了各种环境下进行分布式大规模内容检索的策略。包括:基于结构化DHT的分布式全局倒排索引和文本检索策略;联邦式对等搜索策略;混合对等搜索策略。在每一类方法的讨论中作者结合自己的研究实践对已有工作的来龙去脉进行了详细深入地分析。

第1章 绪论 1

1.1对等网络概述 1

1.2基于对等模式的大规模分布式文本内容检索 5

1.3大规模分布式文本内容检索研究面临的挑战 6

1.4大规模分布式文本内容检索技术分类 7

1.4.1基于结构化分布式哈希表的分布式全局倒排索引 7

1.4.2基于非结构化对等网络的联邦式搜索网络 9

1.4.3混合对等网络搜索引擎 11

1.5本书内容 12

参考文献 15

第2章 分布式哈希表及单关键字全局索引 20

2.1分布式哈希表 21

2.1.1 Chord:基于二分查找的环状对等结构 24

2.1.2 CAN:基于多维空间划分的对等结构 28

2.1.3 Pastry:基于多分查找的前缀匹配对等结构 34

2.1.4 Tapestry:基于多分查找的对等结构 40

2.2现有分布式哈希表算法的比较 45

2.3利用分布式哈希表构建单关键字全局索引 46

2.3.1 eSearch:基于分布式哈希表的水平索引 47

2.3.2 Minerva:在查询中挖掘关联关键字 48

2.3.3局限性 52

参考文献 53

第3章 布隆滤波 54

3.1哈希编码的时间/空间权衡 54

3.1.1一种经典的哈希编码方法 55

3.1.2两种存在误判率的哈希编码方法 56

3.1.3计算因子 56

3.1.4三种哈希编码方法的数学分析 58

3.1.5时空性能比较 61

3.2布隆滤波的基本理论 62

3.2.1布隆滤波概念 62

3.2.2位向量长度的下界 64

3.2.3布隆滤波与集合运算 65

3.3布隆滤波的扩展形式 66

3.3.1计数布隆滤波 66

3.3.2压缩布隆滤波 71

3.3.3动态布隆滤波 74

3.4布隆滤波的应用 87

3.4.1早期应用 87

3.4.2分布式缓存 88

3.4.3 P2P网络 88

3.4.4资源路由 89

3.4.5数据包路由 90

3.4.6基础设施测量 91

参考文献 91

第4章 基于分布式哈希表单关键字索引的搜索 94

4.1结构化对等网多关键字检索面临的挑战 94

4.2 Top-k查询策略 95

4.2.1倒排索引 95

4.2.2 Top- k裁剪算法 97

4.2.3性能评估 102

4.3 PWEB系统 104

4.3.1 PWEB网络结构 105

4.3.2多关键字搜索通信开销优化策略 106

4.3.3扩展性算法 112

4.3.4分布式交集运算执行顺序优化策略 114

4.3.5搜集关键字全局统计信息 115

4.3.6模拟仿真方法 117

4.3.7性能评估 121

4.4小结 132

参考文献 132

第5章 多关键字全局索引及搜索 135

5.1分布式关键字集索引面临的挑战 135

5.2文本检索中的关键字权重方法 136

5.2.1关键字权重模型TF × IDF 136

5.2.2理解逆文档频率 140

5.2.3用逆向总关键字频率替换逆文档频率的尝试 144

5.2.4词频在相关权重模型中的探索 144

5.3 HDK:基于高区分关键字集的索引技术 146

5.3.1关键字集倒排索引 147

5.3.2高区分关键字集索引 147

5.3.3基于高区分关键字集索引的搜索 148

5.3.4扩展性分析 148

5.3.5性能评估 150

5.4 TSS:基于关键字集索引的P2P搜索系统 153

5.4.1 TSS系统结构 153

5.4.2分布式关键字集索引 155

5.4.3模拟测试方法 159

5.4.4性能评估 161

参考文献 167

第6章 基于复制的联邦式对等搜索策略 169

6.1理论分析 169

6.1.1模型建立 170

6.1.2均匀复制策略和比例复制策略 170

6.1.3平方根复制策略 171

6.1.4混合复制策略 173

6.1.5分布式复制算法的实现 174

6.2基于随机游走的随机复制策略 176

6.2.1生日悖论和理论下界 177

6.2.2随机游走复制策略和搜索协议 179

6.2.3性能评估 183

6.3 BubbleStorm:基于随机多图的概率穷尽搜索策略 187

6.3.1副本数量的确定 188

6.3.2网络大小的测量 188

6.3.3随机多图与随机采样 189

6.3.4洪泛和随机游走的完美结合 189

6.3.5系统分析 190

6.3.6性能评估 191

6.4 BloomCast:基于轻量级分布式哈希表的随机采样 194

6.4.1 BloomCast网络结构 194

6.4.2网络结点数量估计 195

6.4.3随机结点采样 197

6.4.4基于布隆滤波的复制算法 198

6.4.5多关键字搜索 198

6.4.6性能评估 199

6.5 PlanetP:基于全局摘要索引的复制策略 205

6.5.1全局目录索引复制 206

6.5.2结点排序模型 207

6.5.3查询处理算法 208

6.5.4性能评估 208

参考文献 211

第7章 基于内容路由的联邦式搜索策略 213

7.1基于语言模型的路由选择 213

7.1.1联邦式搜索引擎的两层结构 213

7.1.2语言模型 214

7.1.3相对熵 216

7.1.4搜索算法 216

7.1.5性能评估 219

7.2基于语义小世界模型的联邦式对等搜索 221

7.2.1语义空间和向量 221

7.2.2构造语义小世界 223

7.2.3降低语义小世界的维度 224

7.2.4基于语义小世界的搜索 226

7.2.5性能评估 226

7.3基于兴趣局部性的路由 229

7.3.1兴趣局部性 229

7.3.2基于兴趣局部性的拓扑和路由 229

7.3.3性能评估 230

7.4 SemreX系统 232

7.4.1 SemreX系统模型 232

7.4.2语义覆盖网 236

7.4.3基于语义覆盖网的查询搜索算法 243

7.4.4性能评估 246

参考文献 252

第8章 混合式对等搜索策略 254

8.1混合对等搜索面临的挑战 254

8.2基于预先探测的混合策略 256

8.2.1 Boon Thau Loo的Gnutella实验 256

8.2.2 SimpleHybrid混合P2P搜索策略 260

8.2.3性能评估 261

8.3基于Gossip的混合搜索选择 262

8.3.1收集全局统计信息 262

8.3.2使用全局信息进行搜索选择 264

8.3.3洪泛阈值的调节 264

8.3.4性能评估 265

8.4难度感知的混合式搜索策略 268

8.4.1很多复本≠很多结点 268

8.4.2 QRank设计 269

8.4.3用QRank进行混合查询 273

8.4.4自适应混合查询 274

8.4.5 QRank仿真器设计 275

8.4.6性能评估 276

参考文献 285

第9章 大规模在线社会网络搜索 287

9.1大规模在线社会网络搜索面临的挑战 287

9.2在线社会网络系统研究现状 288

9.3流行在线社会网络的数据划分与定位 289

9.4大规模在线社会网络内容搜索关键技术 290

9.4.1流式文本摘要技术 291

9.4.2基于摘要索引的排序算法 292

9.4.3多跳邻居摘要聚合技术 292

9.4.4基于社区局部性降低摘要索引开销 293

参考文献 294